Strumenti di ricerca su Web • Motori di ricerca generali: AltaVista

Strumenti di ricerca su Web
• Motori di ricerca generali: AltaVista,
Google, Excite, Infoseek, Lycos, Virgilio,
Arianna, …
• Database gerarchici (per la maggior parte
costruiti “a mano”): Yahoo, tutti i portali
• Ricerca di pagine iniziali: Ahoy
• Ricerca per esempi: “What’s related” di
Netscape, “Similar pages” di Google a
Altavista, “More like this” di Excite
Informatica Generale (CdL in E&C), A.A. 2000-2001
1
Ricerca per parole chiave e problemi di abbondanza
Informatica Generale (CdL in E&C), A.A. 2000-2001
2
1
Ricerca per parole chiave e problemi di abbondanza
Informatica Generale (CdL in E&C), A.A. 2000-2001
3
Ricerca di pagine simili
Informatica Generale (CdL in E&C), A.A. 2000-2001
4
2
Ricerca di pagine simili
Informatica Generale (CdL in E&C), A.A. 2000-2001
5
Ricerca di pagine simili (2)
Informatica Generale (CdL in E&C), A.A. 2000-2001
6
3
Come funziona un motore generale
• Componenti
– Spider (detto anche Crawler): raccoglie i
documenti
– Indexer: elabora e rappresenta i dati
– Interfaccia di ricerca
• Esempio: AltaVista (dati relativi al 7/98)
– l’indice rappresenta circa 125M pagine
(per 700GB di testo)
– circa 35% dell’intero Web
Informatica Generale (CdL in E&C), A.A. 2000-2001
7
Valutazione di un sistema di IR
Si parte da una valutazione umana
sulla rilevanza delle risposte alle query
• Precisione: percentuale delle pagine trovate
che sono rilevanti ( / )
• Richiamo (recall): percentuale di pagine
rilevanti trovate (
/ )
Pagine
rilevanti
Pagine
trovate
Web
“indiciato”
Informatica Generale (CdL in E&C), A.A. 2000-2001
8
4