Kirey Re.Search 2.0

Kirey Re.Search 2.0
Piattaforma di ricerca Open Source
Le esigenze
Quando si parla di motori di ricerca si tende a pensare istintivamente solo a quelli utilizzati per
effettuare ricerche in Internet, come ad esempio Google.
Sempre più spesso però anche all’interno delle aziende, si sente la necessita di reperire
velocemente e facilmente le informazioni.
Ed in quest’ottica sono state sviluppati nel tempo algoritmi che consentono di scegliere, da una
collezione di dati quelle utili o di interesse, in relazione ad una specifica esigenza informativa.
Il recupero delle informazioni (comprese parole all'interno di documenti e messaggi di posta) deve
essere possibile su dati e sui file di ogni tipo, posizionati sui dischi condivisi dei server, sui
database o sui repository centralizzati come SharePoint, Documentum, FileNet etc.etc.
Questo consente un controllo completo di tutta la documentazione aziendale.
La soluzione Kirey
Nell’ambito delle soluzioni di Information Retrieval (IR)1, in grado di rispondere al meglio ai criteri
di “scalabilità”, ovvero di poter garantire la loro efficienza e funzionalità al crescere della base dati
dei documenti ricercabili, e di “robustezza”, ovvero di poter essere applicate anche in condizioni di
intenso utilizzo, si è deciso di adottare Lucene 2, software open-source3 interamente sviluppato nel
linguaggio di programmazione Java dalla Apache Software Foundation (ASF)4.
Per potere utilizzare al meglio Lucene, la stessa comunità dell’ASF ha sviluppato un enterprise
search server, denominato SOLR 5, anch’esso open source, che fornisce allo sviluppatore e
all’amministratore del sistema un’agile interfaccia web per la gestione e la configurazione.
Tramite una semplice ed intuitiva interfaccia web, l’utente può interrogare tutto il patrimonio
informativo aziendale , indicizzato all’interno di SOLR, ed ottenere informazioni e documenti
collegati anche in maniera semantica a quanto ricercato.
La ricerca può avvenire semplicemente inserendo dei termini da rintracciare oppure dei parametri
più selettivi (autore, area, tipo documento, etc. etc.).
1
Con il termine Information Retrieval (IR) si intende l’insieme delle tecniche utilizzate per il recupero mirato di informazioni in formato elettronico
2
Rif. http://lucene.apache.org/.
3
Open-source è un termine utilizzato per indicare una tipologia di software non soggetto a policy d’uso di tipo commerciale e, soprattutto,di cui è
distribuito in chiaro il codice sorgente
4
L’ASF (http://www.apache.org) è una fondazione non-profit formata da una comunità distribuita di sviluppatori che lavorano su progetti di software
open source per applicazioni WEB.
5
Rif. http://lucene.apache.org/solr/
Kirey
Pagina 2
Caratteristiche tecniche
Per il suo funzionamento, SOLR necessita di un Java servlet container6:
è possibile utilizzare Tomcat, JBoss, WebSphere.
E’ compatibile con i seguenti Sistemi Operativi: Windows, Linux, Solaris Unix, Mac OS.
Si integra con tutti i maggiori database, Oracle, SQL Server, MySql.
Può essere implementato all’interno dei maggiori CMS: Alfresco, Drupal, Joomla.
Consente integrazioni con soluzioni Java, .NET, PHP, Ruby.
Espone le sue funzionalità via REST API.
Gestisce i seguenti formati di file:
PDF, Office (Excel, Word, PowerPoint, Visio, Outlook, RTF), OpenDocument (OpenOffice
suite), audio (MP3, MIDI, Wave), image, zip (zip, gzip, bzip2, tar, jar), text, XML, Html
Consente la ricerca full-text, l’evidenziazione dei risultati, l'organizzazione a faccette (o
multidimensionale) dei risultati7.
Referenze
Lucene viene utilizzato tra gli altri da AOL, Apple, IBM, LinkedIn, Netflix, Wikipedia, The White
House, MTV, MySpace, NASA, Nike, Technorati, Twitter.
In campo giornalistico, da The Guardian, News.com e La Repubblica.
In ambito bibliotecario, Los Alamos Research Library (10 milioni di documenti digitali),
la Biblioteca Nazionale Firenze (2 milioni di documenti digitali) e l’Emeroteca virtuale (8 milioni di
articoli).
6
Lo Java Servlet Container è un server java utilizzato per lo sviluppo di siti web con contenuto dinamico
7
Tipicamente, i documenti da gestire sono semi-strutturati, ovvero contenenti una parte di testo non strutturato e una parte di attributi strutturati,
detti anche metadati. Se la parte strutturata di un documento è stata progettata per essere conforme a un sistema di classificazione a faccette,
allora è possibile combinare la ricerca testuale, applicata alla parte non strutturata del documento, con la navigazione a faccette sui metadati.
Kirey
Pagina 3
Estensioni
SIREn
Semantic Information Retrieval
Engine
Grazie a questo plugin, è possibile
effettuare una ricerca di tipo
semantico sui dati.
Le facet gerarchiche associate agli
argomenti indicizzati in Solr infatti
sono collegate direttamente alle
categorie concettuali espresse nel
tesauro. I tesauri possono essere
creati ad hoc piuttosto che
sfruttare repository esistenti .
Manifold CF
Connector Framework
Attraverso dei “crowler” è
possibile connettersi ai
maggiori repository
documentali (FileNet,
Documentum, SherePoint),
controllando in maniera
automatica ogni variazione ai
documenti contenuti e
garantendo a livello di sicurezza
un filtro sulle informazioni.
Kirey
Pagina 4
Architettura
Front End di ricerca
Kirey
Pagina 5
Application server
Operating System
Kirey
Pagina 6
API
Database
Kirey
Pagina 7
Reporitory Connector
CMS Integration
Kirey
Pagina 8
KIREY
via B. Crespi 57, Milano 20159
telefono: +39 02 78625200
e-mail: [email protected]
© 2010 Kirey srl - All rights reserved.
Kirey
Pagina 9