Strumenti di ricerca su Web • Motori di ricerca generali: AltaVista, Google, Excite, Infoseek, Lycos, Virgilio, Arianna, … • Database gerarchici (per la maggior parte costruiti “a mano”): Yahoo, tutti i portali • Ricerca di pagine iniziali: Ahoy • Ricerca per esempi: “What’s related” di Netscape, “Similar pages” di Google a Altavista, “More like this” di Excite Informatica Generale (CdL in E&C), A.A. 2000-2001 1 Ricerca per parole chiave e problemi di abbondanza Informatica Generale (CdL in E&C), A.A. 2000-2001 2 1 Ricerca per parole chiave e problemi di abbondanza Informatica Generale (CdL in E&C), A.A. 2000-2001 3 Ricerca di pagine simili Informatica Generale (CdL in E&C), A.A. 2000-2001 4 2 Ricerca di pagine simili Informatica Generale (CdL in E&C), A.A. 2000-2001 5 Ricerca di pagine simili (2) Informatica Generale (CdL in E&C), A.A. 2000-2001 6 3 Come funziona un motore generale • Componenti – Spider (detto anche Crawler): raccoglie i documenti – Indexer: elabora e rappresenta i dati – Interfaccia di ricerca • Esempio: AltaVista (dati relativi al 7/98) – l’indice rappresenta circa 125M pagine (per 700GB di testo) – circa 35% dell’intero Web Informatica Generale (CdL in E&C), A.A. 2000-2001 7 Valutazione di un sistema di IR Si parte da una valutazione umana sulla rilevanza delle risposte alle query • Precisione: percentuale delle pagine trovate che sono rilevanti ( / ) • Richiamo (recall): percentuale di pagine rilevanti trovate ( / ) Pagine rilevanti Pagine trovate Web “indiciato” Informatica Generale (CdL in E&C), A.A. 2000-2001 8 4