Il Web & le reti sociali IR Informazione Information Retrieval Giambattista Amati Università di Tor Vergata, Roma 13 marzo 2015 Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Sommario 1 Il Web & le reti sociali 2 Cos’è l’IR 3 Che cosè l’ “Informazione” Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Outline 1 Il Web & le reti sociali 2 Cos’è l’IR 3 Che cosè l’ “Informazione” Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Cos’è l’Information Retrieval Il Web & le reti sociali Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Gli inizi Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Persistenza & Search Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Architettura Streaming Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Classificazione delle interrogazioni nel web Informazionale - attività di apprendimento (∼ 40%) Navigazionale - cerco una determinata pagina (∼25%) Transazionale - ho bisogno di un servizio (∼ 35%) Accesso ad un servizio, Download, Acquisti Aree grigie Trovare un hub Ricerca esploratrice: “Vediamo cosa c’è” Jansen et al., Determining the informational, navigational, and transactional intent of Web queries, Information Processing and Management 44 (2008),pp 1251-1266 Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Il Web Il Web è un esempio di ipertesto, nodi e collegamenti. Come sfruttare la meta-informazione del collegamento? HTML è nato per trattare l’ipertesto (CERN 1980) Il primo programma di interfaccia grafica per l’ipertesto: “World Wide Web” (1990) Il primo browser è stato MOSAIC per UNIX (1993) L’Università di Stanford ha creato la tassonomia di Yahoo! (1994), Lycos (CMU 1994) Il consorzio W3C (CERN+MIT) è nato nel 1995, AltaVista (DEC 1995) Page e Brin (università di Stanford) definiscono l’algoritmo PageRank di Google (1996) Google (1997) Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Aree Indicizzazione Clustering e Classificazione (organizzazione piatta e dinamica) Analisi ipertestuali & grafi (catene di Markov, modelli affiliativi ecc.) Ricerca verticale (su particolari domini: biomedicina, investigazioni) Text mining Profilazione di utente Crawling, API focalizzate Cataloghi (Topic directories) (tassonomia per aree/interessi) ... Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Outline 1 Il Web & le reti sociali 2 Cos’è l’IR 3 Che cosè l’ “Informazione” Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Cos’è l’ IR? Una definizione generale Recupero di dati non strutturati. Spesso si tratta di documenti web o di una collezione di articoli Passaggi significativi, sommari ma anche nomi o liste di nomi. Ma anche File di immagini Video File musicali .... Desktop Search Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione IR tradizionale Indexer - ' $ & % list of postings - (term, document, term frequen- Parser & tokenizer cy) Stop words removal Stemming ? ? inverted file direct file 6 Query representation Collection ? ' ? Retrieval of postings for each query-term Query ?? Matching (Term-weighting) $ Searching ' Retrieval of postings for ea- $ (document, term frech relevant/topmost-retrieved quency) document (term, term fre& % quency) & % ? ? ' - Document Ranking & $ - Query Expansion % 6 User’s relevance feedback Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Modelli Rappresentazione dei dati non strutturati Rappresentazione delle interrogazioni Dati di rilevanza e loro rappresentazione (apprendimento automatico) Sistemi Costruzione degli indici, strutture dei dati Parser, tokenizer, stemmer Funzioni di recupero e presentazione dei risultati Utente (relevance feedback) Funzioni di espansione delle interrogazioni Valutazione L’IR è una scienza empirica L’IR è tecnologia Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Outline 1 Il Web & le reti sociali 2 Cos’è l’IR 3 Che cosè l’ “Informazione” Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Che cosa si intende per “Informazione” In che cosa è differente da un’informazione contenuta in un “Database”? L’ Informazione è un dato che ha significato in un contesto. L’ Informazione si può misurare. Un database contiene dei dati ma non produce informazione. Un sistema IR contiene e produce informazione. In cosa differisce dalla “Conoscenza”? La conoscenza è alla base del processo di decisione. Molti sistemi basati sulla conoscenza contengono regole di decisione Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Cosa si intende per “Retrieval?” Trovare qualcosa che si sta cercando relativamente ad alcune categorie di interrogazione : Un oggetto (nome) conosciuto Known item search: come una home-page Trovare una risposta (Four W: where, when, who, what) Chi sono i vincitori dei premi Nobel? (lista) Quale è la capitale della Francia? (fatto) Cos’è l’IR?(definizione) Esplorazione diretta Quali sono i sistemi open source di IR? Prendere delle decisioni (Business Intelligence & Data Analytics Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Oltre il WEB search Agenti (filtering, routing) Sistemi di raccomandazioni (Recommendation systems, Amazon) Classificazione automatica, (Automatic organisation, clustering) IR multilingue (Cross-Language Information Retrieval) Data Mining Uso del Web & Topic tracking Gestione della Conoscenza (Knowledge Management) Meta-search (multi-database searching, www.vivissimo.com) Summarisation / Question Answering Sentiment analysis (Twitter, Blogs, ...) ... Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Cosa indicizzare Articoli di giornali Pagine Web, reti sociali Documenti scolastici, aziendali, legali, tecnici ecc. Documenti XML Bioinformatica, medicina. Finding Out About è scoprire, l’informazione è un bene, e quindi occorre fornirlo in modo coerente, preciso e esaustivo. Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Motore di ricerca di Terrier Ricerca & Sviluppo Progetto di ricerca (dal 1999 - Primo rilascio nel Novembre 2004) Stato dell’arte dei modelli di estrazione dell’informazione Applicazioni Web/intranet search engine, Desktop search Expert search engine Email search engine XML search engine RSS feeds and blogs search engine Multilingual search engine Interesse attuale: Twitter & Social Networks Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione La piattaforma di Terrier Esiste una versione open source sotto licenza MPL Fornisce lo stato dell’arte dei modelli di IR. Multi-piattaforma, sviluppato in Java. Gira su Windows, Unix/Linux, MacOS X API per l’indicizzazione e l’interrogazione Architettura modulare Altamente configurabile con molte opzioni Facilmente integrabile con un database relazionale Incoraggiare la ricerca e la valutazione trasparente di modelli di IR. Giambattista Amati Lezione I Università di Tor Vergata Il Web & le reti sociali IR Informazione Valutazione di Terrier Seconda Migliore prestazione alla Microblog TREC 2011 (FUB-TorVergata) Partecipazione alla TREC dal 2001: Sempre tra le migliori prestazioni nelle sessioni Ad-hoc, Robust, Web, Terabyte e Enterprise, Microblog Migliore prestazione TREC 2001 Web Track (FUB) Migliore prestazione TREC 2004 Terabyte track Migliore prestazione TREC 2004 Web track Migliore prestazione TREC 2005 Enterprise track Partecipazione a CLEF 2004 and 2005 Migliori prestazioni in 5 lingue CLEF 2005 Web track 11 linguaggi europei (Russo, Olandese, Greco, etc.) Prestazioni migliori anche di molti prodotti commerciali (e.g. Hummingbird, Microsoft Research, Sabir, Etymon) Giambattista Amati Lezione I Università di Tor Vergata