Il Web & le reti sociali
IR
Informazione
Information Retrieval
Giambattista Amati
Università di Tor Vergata, Roma
13 marzo 2015
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Sommario
1
Il Web & le reti sociali
2
Cos’è l’IR
3
Che cosè l’ “Informazione”
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Outline
1
Il Web & le reti sociali
2
Cos’è l’IR
3
Che cosè l’ “Informazione”
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Cos’è l’Information Retrieval
Il Web & le reti sociali
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Gli inizi
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Persistenza & Search
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Architettura Streaming
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Classificazione delle interrogazioni nel web
Informazionale - attività di apprendimento (∼ 40%)
Navigazionale - cerco una determinata pagina (∼25%)
Transazionale - ho bisogno di un servizio (∼ 35%)
Accesso ad un servizio, Download, Acquisti
Aree grigie
Trovare un hub
Ricerca esploratrice: “Vediamo cosa c’è”
Jansen et al., Determining the informational, navigational, and
transactional intent of Web queries, Information Processing and
Management 44 (2008),pp 1251-1266
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Il Web
Il Web è un esempio di ipertesto, nodi e collegamenti.
Come sfruttare la meta-informazione del collegamento?
HTML è nato per trattare l’ipertesto (CERN 1980)
Il primo programma di interfaccia grafica per l’ipertesto:
“World Wide Web” (1990)
Il primo browser è stato MOSAIC per UNIX (1993)
L’Università di Stanford ha creato la tassonomia di Yahoo!
(1994), Lycos (CMU 1994)
Il consorzio W3C (CERN+MIT) è nato nel 1995, AltaVista
(DEC 1995)
Page e Brin (università di Stanford) definiscono l’algoritmo
PageRank di Google (1996)
Google (1997)
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Aree
Indicizzazione
Clustering e Classificazione (organizzazione piatta e
dinamica)
Analisi ipertestuali & grafi (catene di Markov, modelli
affiliativi ecc.)
Ricerca verticale (su particolari domini: biomedicina,
investigazioni)
Text mining
Profilazione di utente
Crawling, API focalizzate
Cataloghi (Topic directories) (tassonomia per
aree/interessi)
...
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Outline
1
Il Web & le reti sociali
2
Cos’è l’IR
3
Che cosè l’ “Informazione”
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Cos’è l’ IR?
Una definizione generale
Recupero di dati non strutturati.
Spesso si tratta di documenti web o di una collezione di
articoli
Passaggi significativi, sommari ma anche nomi o liste di
nomi.
Ma anche
File di immagini
Video
File musicali
.... Desktop Search
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
IR tradizionale
Indexer
-
'
$
&
%
list of postings
- (term, document, term frequen-
Parser & tokenizer
cy)
Stop words removal
Stemming
?
?
inverted file
direct file
6
Query representation
Collection
? '
?
Retrieval of postings
for each query-term
Query
??
Matching
(Term-weighting)
$
Searching
'
Retrieval of postings for ea- $
(document, term frech relevant/topmost-retrieved
quency)
document (term, term fre&
%
quency)
&
%
?
?
'
- Document Ranking
&
$
-
Query Expansion
%
6
User’s relevance feedback
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Modelli
Rappresentazione dei dati non strutturati
Rappresentazione delle interrogazioni
Dati di rilevanza e loro rappresentazione (apprendimento
automatico)
Sistemi
Costruzione degli indici, strutture dei dati
Parser, tokenizer, stemmer
Funzioni di recupero e presentazione dei risultati
Utente (relevance feedback)
Funzioni di espansione delle interrogazioni
Valutazione
L’IR è una scienza empirica
L’IR è tecnologia
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Outline
1
Il Web & le reti sociali
2
Cos’è l’IR
3
Che cosè l’ “Informazione”
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Che cosa si intende per “Informazione”
In che cosa è differente da un’informazione contenuta in
un “Database”?
L’ Informazione è un dato che ha significato in un
contesto.
L’ Informazione si può misurare.
Un database contiene dei dati ma non produce
informazione.
Un sistema IR contiene e produce informazione.
In cosa differisce dalla “Conoscenza”?
La conoscenza è alla base del processo di decisione.
Molti sistemi basati sulla conoscenza contengono regole di
decisione
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Cosa si intende per “Retrieval?”
Trovare qualcosa che si sta cercando relativamente ad alcune categorie di
interrogazione
:
Un oggetto (nome) conosciuto Known item search:
come una home-page
Trovare una risposta (Four W: where, when, who, what)
Chi sono i vincitori dei premi Nobel? (lista)
Quale è la capitale della Francia? (fatto)
Cos’è l’IR?(definizione)
Esplorazione diretta
Quali sono i sistemi open source di IR?
Prendere delle decisioni (Business Intelligence & Data
Analytics
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Oltre il WEB search
Agenti (filtering, routing)
Sistemi di raccomandazioni (Recommendation systems,
Amazon)
Classificazione automatica, (Automatic organisation,
clustering)
IR multilingue (Cross-Language Information Retrieval)
Data Mining
Uso del Web & Topic tracking
Gestione della Conoscenza (Knowledge Management)
Meta-search (multi-database searching,
www.vivissimo.com)
Summarisation / Question Answering
Sentiment analysis (Twitter, Blogs, ...)
...
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Cosa indicizzare
Articoli di giornali
Pagine Web, reti sociali
Documenti scolastici, aziendali, legali, tecnici ecc.
Documenti XML
Bioinformatica, medicina.
Finding Out About è scoprire, l’informazione è un bene, e
quindi occorre fornirlo in modo coerente, preciso e
esaustivo.
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Motore di ricerca di Terrier
Ricerca & Sviluppo
Progetto di ricerca (dal 1999 - Primo rilascio nel Novembre
2004)
Stato dell’arte dei modelli di estrazione dell’informazione
Applicazioni
Web/intranet search engine, Desktop search
Expert search engine
Email search engine
XML search engine
RSS feeds and blogs search engine
Multilingual search engine
Interesse attuale: Twitter & Social Networks
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
La piattaforma di Terrier
Esiste una versione open source sotto licenza MPL
Fornisce lo stato dell’arte dei modelli di IR.
Multi-piattaforma, sviluppato in Java.
Gira su Windows, Unix/Linux, MacOS X
API per l’indicizzazione e l’interrogazione
Architettura modulare
Altamente configurabile con molte opzioni
Facilmente integrabile con un database relazionale
Incoraggiare la ricerca e la valutazione trasparente di
modelli di IR.
Giambattista Amati
Lezione I
Università di Tor Vergata
Il Web & le reti sociali
IR
Informazione
Valutazione di Terrier
Seconda Migliore prestazione alla Microblog TREC 2011
(FUB-TorVergata)
Partecipazione alla TREC dal 2001: Sempre tra le migliori
prestazioni nelle sessioni Ad-hoc, Robust, Web, Terabyte e
Enterprise, Microblog
Migliore prestazione TREC 2001 Web Track (FUB)
Migliore prestazione TREC 2004 Terabyte track
Migliore prestazione TREC 2004 Web track
Migliore prestazione TREC 2005 Enterprise track
Partecipazione a CLEF 2004 and 2005
Migliori prestazioni in 5 lingue CLEF 2005 Web track
11 linguaggi europei (Russo, Olandese, Greco, etc.)
Prestazioni migliori anche di molti prodotti commerciali
(e.g. Hummingbird, Microsoft Research, Sabir, Etymon)
Giambattista Amati
Lezione I
Università di Tor Vergata