La ricerca sul web a scopo didattico documento PDF

La ricerca su web a scopo
didattico
Tommaso Mazzoli
Università degli Studi di Trieste
World Wide Web
• World Wide Web (WWW) è una
enorme rete di documenti,
contenenti testi, immagini ma
anche suoni ed animazioni,
distribuiti tra i vari nodi di Internet,
e collegati tra loro a formare una
trama virtualmente infinita…
• Lungo questa trama ogni utente
può costruire i suoi percorsi di
lettura, guidato dai suoi interessi e
dalla sua curiosità
• Un simile sistema di organizzazione
delle informazioni viene
denominato ipertesto
• World Wide Web dunque è un
ipertesto multimediale distribuito
sulla rete Internet
2
Ipertesti, un po’ di storia
1945: Vannevar Bush,
direttore dell’ufficio per la
ricerca e lo sviluppo
scientifico del governo
americano, scrive per
Atlantic Monthly un
articolo dal titolo As We
May Think.
Ipertesti, un po’ di storia
La mente umana opera per associazione. A
partire da un soggetto salta immediatamente
al successivo che è suggerito dall’associazione
di pensieri, in accordo ad una qualche
ragnatela intricata di cammini realizzata per
mezzo delle cellule del cervello. La selezione
per associazione, piuttosto che per
indicizzazione, può ugualmente essere
meccanizzata. Non si può sperare di
uguagliare la velocità e la flessibilità con cui
la mente umana segue un cammino
associativo, ma dovrebbe essere possibile
battere la mente quanto a permanenza e
chiarezza dei componenti recuperati dalla
memoria”.
Vannevar Bush, As We May Think, 1945
Ipertesti, un po’ di storia
L’articolo propone la realizzazione del MEMEX, una
sorta di ‘scrivania meccanizzata’
“A Memex is a device in which an individual stores all
his books, records, and communications, and which is
mechanized so that it may be consulted with
exceeding speed and flexibility. It is an enlarged
intimate supplement to his memory”
Vannevar Bush, As We May Think, 1945
Ipertesti, un po’ di storia
Ma… come doveva funzionare, in pratica, il
Memex?
Ipertesti, un po’ di storia
Ancora una ricostruzione del Memex…
Ipertesti, un po’ di storia
• Nel 1965 Ted Nelson conia i termini:
1)Ipertesto: “Con ipertesto intendo scrittura non
sequenziale, testo che si dirama e consente al lettore di
scegliere; qualcosa che si fruisce al meglio davanti a uno
schermo interattivo. Così come è comunemente inteso, un
ipertesto è una serie di brani di testo tra cui sono definiti
legami [links] che consentono al lettore differenti cammini”
2)Ipermedia: un ipertesto che contiene anche
suoni, immagini, animazioni
Tim Berners-Lee
Nel 1976 si laureò in fisica all'Università di Oxford.
Nel 1980 trascorse sei mesi al CERN come consulente nel
campo dell'ingegneria del software. Lì realizzò, per uso
privato, il primo software chiamato Enquire e mai pubblicato,
che formerà la base concettuale per il futuro sviluppo del
World Wide Web.
Nel 1989 elaborò un progetto globale sull'ipertesto, poi noto
come World Wide Web.
Berners-Lee ha coniato il nome di World Wide Web, ha scritto
il primo server per il World Wide Web, httpd, e il primo
programma client (un browser e un editor)nell'ottobre del
1990. Ha scritto inoltre la prima versione del linguaggio di
formattazione di documenti con capacità di collegamenti
ipertestuali conosciuto come HTML.
Le sue specifiche iniziali per URL, HTTP e HTML sono state
in seguito perfezionate e discusse da una vasta comunità di
Nel 1993 Tim Berners-Lee venne intervistato dalla testata TG1 della RAI.
I suoi diretti superiori al CERN vennero interrogati, nel corso dell'intervista, sulla
possibilità che il CERN promuovesse, anche con fondi speciali di ricerca delle
Commissioni Europee, l'idea del WWW e la sua promozione industriale.
Il direttore del CERN, il fisico italiano Carlo Rubbia, disse che non riteneva compito
del CERN promuovere quella pur brillante idea.
Tim Berners Lee accettò l'offerta di Mike Dertouzos del MIT, lasciando il CERN per il
Laboratory for Computer Science (LCS) del prestigioso Massachusetts Institute of
Technology (MIT) di Boston, presso cui nel 1994 fondò il World Wide Web
Consortium (W3C).
Il 15 aprile 2004 gli è stato assegnato il premio Millennium Technology per
l'invenzione del World Wide Web. Il 16 luglio 2004 Berners-Lee è stato insignito del
titolo di Knight Commander dell'Ordine dell'Impero Britannico dalla regina Elisabetta
II d'Inghilterra.
World Wide Web
• Ogni pagina di questa rete è dotata di un
indirizzo, denominato Uniform Resource Locator
(URL)
11
World Wide Web
• Per consultare le pagine multimediali del World
Wide Web si usa un programma denominato
browser
Alcune porzioni di
testo o parti di
immagini in una
pagina Web
corrispondono ai
collegamenti, o link, ad
altre pagine, o ad altre
sezioni della stessa
pagina
12
I browser
• Internet Explorer
• Firefox
http://www.mozillaitalia.it/firefox/
• Safari
http://www.apple.com/it/safari/
• Opera
http://www.opera.com/
• Chrome
http://www.google.com/chrome/
13
HTML: HyperText Markup Language
• È un sistema di marcatura/formattazione del testo
• filosofia alternativa al WYSIWYG (what you see is what you get =
“ciò che vedi è ciò che ottieni”) tipica di editor come Microsoft
word
• Permette
–
–
–
–
formattazione del testo mediante l’uso di comandi (tag)
collegamenti (link) ad altre risorse disponibili sul WWW
definizione di maschere di inserimento dati
inclusione di altri oggetti complessi (immagini, suoni, etc)
15
Hyper Text Markup Language
• Serve per costruire una pagina web che ha estensione .htm o
.html

Può essere scritto con il semplice blocco notes o con
diversi software (editor) che sono specializzati per
favorire e controllare la sintassi del linguaggio (Front
Page, Dreamweaver, …)

La pagina web può essere visualizzata solo grazie ad
un particolare programma che interpreta i tags del
linguaggio html (browser) Internet Explorer,
Netscape,ecc
Hyper Text Markup Language
• I TAGS, o elementi, che compongono HTML
devono essere racchiusi fra parentesi angolari
<così>
Si tratta di parole chiave, termini in lingua
inglese.
• L'elemento (tag) smette di produrre il suo effetto
nel momento in cui lo stesso viene ripetuto
facendolo precedere da una barra laterale /
contenuta sempre all'interno delle parentesi
angolari </così>.
Struttura di un documento
<HTML>
<HEAD> ... </HEAD>
<BODY>
....
</BODY>
</HTML>
I motori di ricerca
• Il motore di ricerca è un server che periodicamente
ispeziona i documenti residenti sulla rete e li indicizza in
base al loro contenuto e alla struttura dei loro link
• Un motore di ricerca fornisce un servizio di ricerca sulla
rete per parole chiave fornite dall’utente
• Ogni ricerca produce una lista di link (ordinata per
rilevanza) ai documenti contenenti quelle parole chiave
19
I motori di ricerca
– http://www.google.com/
– http://www.bing.com
– http://www.altavista.com/
– http://www.yahoo.com/
– http://www.excite.com/
– http://www.lycos.it/
– http://www.virgilio.it/
– ...
20
I motori di ricerca: operatori booleani
AND, +
Restringe il campo di ricerca
igiene AND dentale oppure +igiene +dentale
entrambi i termini devono
essere presenti (default di Google)
OR
Estende il campo di ricerca
igiene OR dentale
AND NOT, Restringe il campo di ricerca
Non è riconosciuto da tutti i motori
igiene AND NOT dentale oppure igiene -dentale
“”
seguito
le parole chiave si devono trovare di
“igiene dentale”
21
MOTORI DI RICERCA: Google
• Settembre 1998, Menlo Park (CA): inizia la "Google Story"
• Larry Page e Sergey Brin, due studenti di Stanford con il
pallino della matematica, avevano 25 anni quando nel
settembre del 1998 fondarono Google.
• Poco dopo aver fondato l’azienda, per mancanza dei fondi
necessari per l’acquisto di nuovi PC e di altro materiale,
cercarono di venderla per un milione di dollari a diverse
società finanziarie, oltre che a diretti concorrenti come
Altavista e Yahoo, ottenendo solo dei rifiuti.
• Oggi Google vale oltre
100 miliardi di dollari
22
MOTORI DI RICERCA: Google
• La loro “impossible mission” era trovare un modo di catalogare tutte le
informazioni presenti in internet e renderle rapidamente e facilmente
disponibili a tutti. E ovviamente di farlo meglio di quanto già facessero Yahoo,
Altavista, etc
• La cosa più innovativa è stata sicuramente l’invenzione del “PageRank”.
• Il pagerank è un metodo per determinare “l’importanza” di una pagina web.
Mentre i motori esistenti, per indicizzare e posizionare i siti web nei loro
database, si limitavano a contare le ricorrenze, nel testo delle pagine, dei
termini cercati dagli utenti, e quindi mostravano ai primi posti siti web non
sempre pertinenti con le informazioni desiderate, Page e Brin ebbero l’idea di
verificare e contare non solo le ripetizioni delle parole ma anche i link che
provenivano da altri siti e che puntavano ad una determinata pagina. Il loro
ragionamento era semplice: se un certo sito è citato e consigliato da molti altri
significa che ha dei contenuti interessanti e quindi è giusto farlo vedere prima
di altri.
23
MOTORI DI RICERCA: Google
•
•
•
In realtà il metodo adottato dai due studenti per calcolare il Page Rank è molto
più complesso ed articolato; non si limita a contare i link ma tiene conto anche
della “qualità” dei contenuti e dell’importanza dei siti da cui provengono i link.
Ad esempio, se il sito della Microsoft consiglia o cita il mio sito, lo stesso
acquista agli occhi di Google un valore maggiore rispetto al sito di un
concorrente consigliato da un’azienda sconosciuta, e quindi avrà un PageRank
più elevato del concorrente.
Ci sono poi altri fattori che contribuiscono a determinare il PageRank, come
l’anzianità del sito, il numero dei visitatori, ecc.. Credo che nessuno li conosca
tutti, anche se sono stati ormai scritti migliaia di articoli e di libri sui “segreti
del PageRank di Google”.
Ciò che conta è che gli utenti, usando Google, si rendevano conto che era più
facile e richiedeva meno tempo trovare le informazioni desiderate e pertanto
abbandonavano gli altri motori e consigliavano agli amici e conoscenti di fare
altrettanto.
•
24
MOTORI DI RICERCA: Google
• Oggi Google reperisce e gestisce le informazioni presenti su internet
grazie ad una propria rete composta da oltre 100.000 PC. Una potenza di
calcolo che nessun’altra azienda al mondo possiede.
• Google riesce parzialmente ad esplorare il DEEP WEB, ossia quelle
informazioni contenute nel web, ma non indicizzate dai motori di
ricerca e contenute nei database. Google riesce ad indicizzare anche
documenti in formati non testuali (PDF, presentazioni, fogli di calcolo,
immagini), ma si ferma (per ora) di fronte ai contenuti audio e video.
• Google ha nel suo database oltre 8 miliardi di pagine web e ogni giorno i
suoi utenti effettuano 200 milioni di ricerche in oltre 80 lingue.
Attualmente è in atto il più ambizioso dei progetti mai attuati: la
digitalizzazione dei volumi di intere biblioteche al fine di rendere il sapere
umano alla portata di tutti.
25
MOTORI DI RICERCA: Google
• Ma chi paga? Da dove provengono i soldi?
• Ma tutti questi miliardi di dollari da dove arrivano, considerato che
l’utilizzo di Google è gratuito?
• Chi paga?
• Questa è la domanda che spesso mi è stata posta da clienti, amici e
conoscenti, e sono certo che anche molti di voi qualche volta se la
saranno posta.
• La risposta è molto semplice: Google non fa pubblicità a se stesso
ma incassa molto per la pubblicità che fa agli altri.
26
MOTORI DI RICERCA: Google
• La pubblicità contestuale
• Un’altra delle idee brillanti di Google è stata la pubblicità contestuale, o mirata.
Provate a immaginare… state guardando un film di fantascienza alla TV e c’è
un’interruzione pubblicitaria con uno spot che parla di un fascicolo con DVD
allegato, in edicola da domani; il titolo è “ai confini della realtà” (un mito degli
anni ’60 per gli amanti di fantascienza).
• Quanti di voi cambierebbero canale per evitare questa pubblicità?
• Google fa la stessa cosa: se state cercando ad esempio “noleggio macchine per
caffè” vedrete sulla parte destra della pagina dei risultati alcuni link pubblicitari
di aziende che noleggiano macchine per caffè o che vendono cialde di caffè. Le
probabilità che questa pubblicità dia fastidio sono quindi minime e nello stesso
tempo, le probabilità che qualcuno clicchi su questi link sono alte.
•
Questo consente a Google di far accettare ai suoi inserzionisti di pagare un “tot”
per click più elevato rispetto a ciò che pagherebbero per la stessa pubblicità
inserita su siti o portali che parlano di calcio, di libri, di corsi, di telefonini o di
cronaca.
27
MOTORI DI RICERCA: Google
• Il sito di GOOGLE - un esempio da imitare
• Il sito di Google si presenta in modo spartano, senza animazioni in
flash, senza musichette, senza sfondi multicolori, senza banner
pubblicitari. Non c’è nulla che possa distrarre l’utente, che lo
costringa a pensare dove cliccare. Ci sono soltanto informazioni.
Google sa cosa vogliono gli utenti e li accontenta.
• Pensate a quanti milioni di dollari Google sta rinunciando pur di
non "sporcare" e rendere pesante la sua home page con
l'inserimento di banner pubblicitari statici o animati in Flash, come
invece fanno altri motori (MSN, YAHOO, ecc..).
28
GOOGLE: la ricerca
•
-
Ricerche di base
Operatore AND automatico;
Google ignora le “stop words”*
Google non supporta la ricerca di radici di parole
(per es. aziend*)
*Stop words o stopwords, è il nome dato alle parole che vengono filtrate a priori o
conseguentemente ad un processo di analisi dei testi di documenti presenti in un data base,
come ad esempio: - da, in, per, il, chi, su, ecc..
29
GOOGLE: la ricerca
• La ricerca avanzata:
30
GOOGLE: gli strumenti
•Google libri (http://books.google.it/)
Consente la ricerca e la lettura di libri resi
disponibili online dagli editori aderenti
all'iniziativa.
In alcuni casi, per motivi legali, viene richiesta
l’autenticazione per poter leggere i libri trovati
31
Google libri
• I problemi incontrati sembrano essere fondamentalmente di tre
tipi:
• 1) quelli, ben noti, legati alle iniziative legali attraverso le quali la
Authors Guild e la Association of American Publishers (oltre ad
alcuni autori individuali) stanno cercando di bloccare la
digitalizzazione dei testi sotto diritti;
• 2) quelli, purtroppo assai meno noti, legati alle difficoltà tecniche
del progetto e alle caratteristiche degli strumenti software e dei
formati di codifica utilizzati;
• 3) quelli, ovviamente influenzati anche dalle prime due tipologie,
legati alla focalizzazione dell’esatta fisionomia del progetto stesso.
32
GOOGLE: gli strumenti
•Google scholar (http://scholar.google.com/)
-Che cos'è Google Scholar?
Google Scholar offre un modo semplice per effettuare un'ampia ricerca sulla letteratura
accademica. Con un unico servizio, puoi effettuare ricerche tra molte discipline e fonti:
documenti approvati per la pubblicazione, tesi, libri, abstract e articoli di case editrici
accademiche, ordini professionali, database di studi non ancora pubblicati, università e
altre organizzazioni accademiche..
Funzioni di Google Scholar
Cerca in diverse fonti utilizzando un unico e pratico sito
Trova documenti, abstract e citazioni
Individua un documento completo nella tua biblioteca oppure sul web
Scopri documenti importanti in qualsiasi area di ricerca
Come vengono classificati gli articoli?
Google Scholar mira ad elencare gli articoli in base alla stessa classificazione adottata dal
mondo scientifico, ossia valutando il testo completo di un articolo, l'autore, la
pubblicazione in cui è riportato e il numero di volte in cui viene citato in altri documenti
accademici. I risultati più pertinenti vengono sempre visualizzati nella prima pagina.
33
Liber Liber
• Liber Liber, è una o.n.l.u.s. (organizzazione non lucrativa di
utilità sociale) che ha come obiettivo la promozione di ogni
espressione artistica e intellettuale. In particolare, Liber Liber
si propone di favorire l'utilizzazione consapevole delle
tecnologie informatiche in campo umanistico e di avvicinare la
cultura umanistica e quella scientifica.
• Grazie alla collaborazione di volontari e sponsor come la
E-text, i capolavori della letteratura e le altre opere edite
dal progetto Manuzio vengono prelevate mensilmente da
oltre 150.000 utenti / mese
• www.liberliber.it
• www.intratext.com
34
I metamotori
•
•
•
•
•
Un metamotore è un'interfaccia che svolge la sua interrogazione su più motori di
ricerca contemporaneamente.
L'utente digita il testo da cercare nel matamotore che lancia la ricerca, collegandosi
al sito di Google, Yahoo e altri, i quali inviano una risposta che può essere
direttamente presentata all'utente, oppure filtrata secondo alcuni criteri, in primis
l'eliminazione delle ripetizioni.
Il metamotore filtra i risultati forniti da più di un motore di ricerca, per eliminare
eventuali ripetizioni.
Una ricerca su un metamotore può coinvolgere più database insieme, tanti quanti
sono i database dei motori coinvolti. Questo è il principale vantaggio di questo tipo
di motori: raggiungere una quota maggiore di siti della rete, rispetto
all'interrogazione di un solo motore.
Come svantaggio bisogna evidenziare la mancanza di strumenti per la ricerca
avanzata, di cui sono invece dotati i singoli motori.
• http://www.metacrawler.com/ (zoo)
• http://www.ixquick.com/
35
1. GLI OPAC (Online Public Acess Catalog)
• Sono risorse gratuite e quindi consultabili
anche al di fuori della biblioteca
• Consentono di accertare l’esistenza di
documenti all’interno delle biblioteche
• La ricerca può avvenire per: autore, parole del
titolo, soggetti e voci di classificazione Dewey
2. GLI OPAC e I METAOPAC
• L’OPAC è il catalogo di una biblioteca
• I metaOPAC permettono di interrogare più
cataloghi contemporaneamente; la schermata
di interrogazione è simile a quella di un opac
con l’aggiunta di un elenco delle biblioteche
sulle quali verrà effettuata la ricerca.
5. GLI OPAC: gli operatori logici
• Di default gli OPAC compiono le ricerche
utilizzano l’operatore AND
• E’ possibile, però, compiere una ricerca
utilizzando anche gli operatori “OR” e “NOT” e
gli operatori di prossimità “ADJ” e “WITH”
9.GLI OPAC di biblioteche straniere
• Library of Congress on line Catalog
(http://catalog.loc.gov/)
• The British Library
(http://explore.bl.uk/primo_library/libweb/act
ion/search.do?dscnt=1&dstmp=13966143937
48&vid=BLVU1&fromLogin=true )
• Karlsruhe Virtual Catalog
(http://www.ubka.unikarlsruhe.de/kvk_en.html )
1. CATALOGHI COMMERCIALI
• Consentono di individuare libri e riviste in
commercio editi in Italia o all’estero.
• E’ possibile visualizzare gli abstract, gli indici
dei volumi e talvolta anche un capitolo di
prova
2. CATALOGHI COMMERCIALI
• Cataloghi generali
- Amazon (http://www.amazon.com )
- IBS (www.ibs.it )
- Feltrinelli (http://www.lafeltrinelli.it/ )