La ricerca su web a scopo didattico Tommaso Mazzoli Università degli Studi di Trieste World Wide Web • World Wide Web (WWW) è una enorme rete di documenti, contenenti testi, immagini ma anche suoni ed animazioni, distribuiti tra i vari nodi di Internet, e collegati tra loro a formare una trama virtualmente infinita… • Lungo questa trama ogni utente può costruire i suoi percorsi di lettura, guidato dai suoi interessi e dalla sua curiosità • Un simile sistema di organizzazione delle informazioni viene denominato ipertesto • World Wide Web dunque è un ipertesto multimediale distribuito sulla rete Internet 2 Ipertesti, un po’ di storia 1945: Vannevar Bush, direttore dell’ufficio per la ricerca e lo sviluppo scientifico del governo americano, scrive per Atlantic Monthly un articolo dal titolo As We May Think. Ipertesti, un po’ di storia La mente umana opera per associazione. A partire da un soggetto salta immediatamente al successivo che è suggerito dall’associazione di pensieri, in accordo ad una qualche ragnatela intricata di cammini realizzata per mezzo delle cellule del cervello. La selezione per associazione, piuttosto che per indicizzazione, può ugualmente essere meccanizzata. Non si può sperare di uguagliare la velocità e la flessibilità con cui la mente umana segue un cammino associativo, ma dovrebbe essere possibile battere la mente quanto a permanenza e chiarezza dei componenti recuperati dalla memoria”. Vannevar Bush, As We May Think, 1945 Ipertesti, un po’ di storia L’articolo propone la realizzazione del MEMEX, una sorta di ‘scrivania meccanizzata’ “A Memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory” Vannevar Bush, As We May Think, 1945 Ipertesti, un po’ di storia Ma… come doveva funzionare, in pratica, il Memex? Ipertesti, un po’ di storia Ancora una ricostruzione del Memex… Ipertesti, un po’ di storia • Nel 1965 Ted Nelson conia i termini: 1)Ipertesto: “Con ipertesto intendo scrittura non sequenziale, testo che si dirama e consente al lettore di scegliere; qualcosa che si fruisce al meglio davanti a uno schermo interattivo. Così come è comunemente inteso, un ipertesto è una serie di brani di testo tra cui sono definiti legami [links] che consentono al lettore differenti cammini” 2)Ipermedia: un ipertesto che contiene anche suoni, immagini, animazioni Tim Berners-Lee Nel 1976 si laureò in fisica all'Università di Oxford. Nel 1980 trascorse sei mesi al CERN come consulente nel campo dell'ingegneria del software. Lì realizzò, per uso privato, il primo software chiamato Enquire e mai pubblicato, che formerà la base concettuale per il futuro sviluppo del World Wide Web. Nel 1989 elaborò un progetto globale sull'ipertesto, poi noto come World Wide Web. Berners-Lee ha coniato il nome di World Wide Web, ha scritto il primo server per il World Wide Web, httpd, e il primo programma client (un browser e un editor)nell'ottobre del 1990. Ha scritto inoltre la prima versione del linguaggio di formattazione di documenti con capacità di collegamenti ipertestuali conosciuto come HTML. Le sue specifiche iniziali per URL, HTTP e HTML sono state in seguito perfezionate e discusse da una vasta comunità di Nel 1993 Tim Berners-Lee venne intervistato dalla testata TG1 della RAI. I suoi diretti superiori al CERN vennero interrogati, nel corso dell'intervista, sulla possibilità che il CERN promuovesse, anche con fondi speciali di ricerca delle Commissioni Europee, l'idea del WWW e la sua promozione industriale. Il direttore del CERN, il fisico italiano Carlo Rubbia, disse che non riteneva compito del CERN promuovere quella pur brillante idea. Tim Berners Lee accettò l'offerta di Mike Dertouzos del MIT, lasciando il CERN per il Laboratory for Computer Science (LCS) del prestigioso Massachusetts Institute of Technology (MIT) di Boston, presso cui nel 1994 fondò il World Wide Web Consortium (W3C). Il 15 aprile 2004 gli è stato assegnato il premio Millennium Technology per l'invenzione del World Wide Web. Il 16 luglio 2004 Berners-Lee è stato insignito del titolo di Knight Commander dell'Ordine dell'Impero Britannico dalla regina Elisabetta II d'Inghilterra. World Wide Web • Ogni pagina di questa rete è dotata di un indirizzo, denominato Uniform Resource Locator (URL) 11 World Wide Web • Per consultare le pagine multimediali del World Wide Web si usa un programma denominato browser Alcune porzioni di testo o parti di immagini in una pagina Web corrispondono ai collegamenti, o link, ad altre pagine, o ad altre sezioni della stessa pagina 12 I browser • Internet Explorer • Firefox http://www.mozillaitalia.it/firefox/ • Safari http://www.apple.com/it/safari/ • Opera http://www.opera.com/ • Chrome http://www.google.com/chrome/ 13 HTML: HyperText Markup Language • È un sistema di marcatura/formattazione del testo • filosofia alternativa al WYSIWYG (what you see is what you get = “ciò che vedi è ciò che ottieni”) tipica di editor come Microsoft word • Permette – – – – formattazione del testo mediante l’uso di comandi (tag) collegamenti (link) ad altre risorse disponibili sul WWW definizione di maschere di inserimento dati inclusione di altri oggetti complessi (immagini, suoni, etc) 15 Hyper Text Markup Language • Serve per costruire una pagina web che ha estensione .htm o .html Può essere scritto con il semplice blocco notes o con diversi software (editor) che sono specializzati per favorire e controllare la sintassi del linguaggio (Front Page, Dreamweaver, …) La pagina web può essere visualizzata solo grazie ad un particolare programma che interpreta i tags del linguaggio html (browser) Internet Explorer, Netscape,ecc Hyper Text Markup Language • I TAGS, o elementi, che compongono HTML devono essere racchiusi fra parentesi angolari <così> Si tratta di parole chiave, termini in lingua inglese. • L'elemento (tag) smette di produrre il suo effetto nel momento in cui lo stesso viene ripetuto facendolo precedere da una barra laterale / contenuta sempre all'interno delle parentesi angolari </così>. Struttura di un documento <HTML> <HEAD> ... </HEAD> <BODY> .... </BODY> </HTML> I motori di ricerca • Il motore di ricerca è un server che periodicamente ispeziona i documenti residenti sulla rete e li indicizza in base al loro contenuto e alla struttura dei loro link • Un motore di ricerca fornisce un servizio di ricerca sulla rete per parole chiave fornite dall’utente • Ogni ricerca produce una lista di link (ordinata per rilevanza) ai documenti contenenti quelle parole chiave 19 I motori di ricerca – http://www.google.com/ – http://www.bing.com – http://www.altavista.com/ – http://www.yahoo.com/ – http://www.excite.com/ – http://www.lycos.it/ – http://www.virgilio.it/ – ... 20 I motori di ricerca: operatori booleani AND, + Restringe il campo di ricerca igiene AND dentale oppure +igiene +dentale entrambi i termini devono essere presenti (default di Google) OR Estende il campo di ricerca igiene OR dentale AND NOT, Restringe il campo di ricerca Non è riconosciuto da tutti i motori igiene AND NOT dentale oppure igiene -dentale “” seguito le parole chiave si devono trovare di “igiene dentale” 21 MOTORI DI RICERCA: Google • Settembre 1998, Menlo Park (CA): inizia la "Google Story" • Larry Page e Sergey Brin, due studenti di Stanford con il pallino della matematica, avevano 25 anni quando nel settembre del 1998 fondarono Google. • Poco dopo aver fondato l’azienda, per mancanza dei fondi necessari per l’acquisto di nuovi PC e di altro materiale, cercarono di venderla per un milione di dollari a diverse società finanziarie, oltre che a diretti concorrenti come Altavista e Yahoo, ottenendo solo dei rifiuti. • Oggi Google vale oltre 100 miliardi di dollari 22 MOTORI DI RICERCA: Google • La loro “impossible mission” era trovare un modo di catalogare tutte le informazioni presenti in internet e renderle rapidamente e facilmente disponibili a tutti. E ovviamente di farlo meglio di quanto già facessero Yahoo, Altavista, etc • La cosa più innovativa è stata sicuramente l’invenzione del “PageRank”. • Il pagerank è un metodo per determinare “l’importanza” di una pagina web. Mentre i motori esistenti, per indicizzare e posizionare i siti web nei loro database, si limitavano a contare le ricorrenze, nel testo delle pagine, dei termini cercati dagli utenti, e quindi mostravano ai primi posti siti web non sempre pertinenti con le informazioni desiderate, Page e Brin ebbero l’idea di verificare e contare non solo le ripetizioni delle parole ma anche i link che provenivano da altri siti e che puntavano ad una determinata pagina. Il loro ragionamento era semplice: se un certo sito è citato e consigliato da molti altri significa che ha dei contenuti interessanti e quindi è giusto farlo vedere prima di altri. 23 MOTORI DI RICERCA: Google • • • In realtà il metodo adottato dai due studenti per calcolare il Page Rank è molto più complesso ed articolato; non si limita a contare i link ma tiene conto anche della “qualità” dei contenuti e dell’importanza dei siti da cui provengono i link. Ad esempio, se il sito della Microsoft consiglia o cita il mio sito, lo stesso acquista agli occhi di Google un valore maggiore rispetto al sito di un concorrente consigliato da un’azienda sconosciuta, e quindi avrà un PageRank più elevato del concorrente. Ci sono poi altri fattori che contribuiscono a determinare il PageRank, come l’anzianità del sito, il numero dei visitatori, ecc.. Credo che nessuno li conosca tutti, anche se sono stati ormai scritti migliaia di articoli e di libri sui “segreti del PageRank di Google”. Ciò che conta è che gli utenti, usando Google, si rendevano conto che era più facile e richiedeva meno tempo trovare le informazioni desiderate e pertanto abbandonavano gli altri motori e consigliavano agli amici e conoscenti di fare altrettanto. • 24 MOTORI DI RICERCA: Google • Oggi Google reperisce e gestisce le informazioni presenti su internet grazie ad una propria rete composta da oltre 100.000 PC. Una potenza di calcolo che nessun’altra azienda al mondo possiede. • Google riesce parzialmente ad esplorare il DEEP WEB, ossia quelle informazioni contenute nel web, ma non indicizzate dai motori di ricerca e contenute nei database. Google riesce ad indicizzare anche documenti in formati non testuali (PDF, presentazioni, fogli di calcolo, immagini), ma si ferma (per ora) di fronte ai contenuti audio e video. • Google ha nel suo database oltre 8 miliardi di pagine web e ogni giorno i suoi utenti effettuano 200 milioni di ricerche in oltre 80 lingue. Attualmente è in atto il più ambizioso dei progetti mai attuati: la digitalizzazione dei volumi di intere biblioteche al fine di rendere il sapere umano alla portata di tutti. 25 MOTORI DI RICERCA: Google • Ma chi paga? Da dove provengono i soldi? • Ma tutti questi miliardi di dollari da dove arrivano, considerato che l’utilizzo di Google è gratuito? • Chi paga? • Questa è la domanda che spesso mi è stata posta da clienti, amici e conoscenti, e sono certo che anche molti di voi qualche volta se la saranno posta. • La risposta è molto semplice: Google non fa pubblicità a se stesso ma incassa molto per la pubblicità che fa agli altri. 26 MOTORI DI RICERCA: Google • La pubblicità contestuale • Un’altra delle idee brillanti di Google è stata la pubblicità contestuale, o mirata. Provate a immaginare… state guardando un film di fantascienza alla TV e c’è un’interruzione pubblicitaria con uno spot che parla di un fascicolo con DVD allegato, in edicola da domani; il titolo è “ai confini della realtà” (un mito degli anni ’60 per gli amanti di fantascienza). • Quanti di voi cambierebbero canale per evitare questa pubblicità? • Google fa la stessa cosa: se state cercando ad esempio “noleggio macchine per caffè” vedrete sulla parte destra della pagina dei risultati alcuni link pubblicitari di aziende che noleggiano macchine per caffè o che vendono cialde di caffè. Le probabilità che questa pubblicità dia fastidio sono quindi minime e nello stesso tempo, le probabilità che qualcuno clicchi su questi link sono alte. • Questo consente a Google di far accettare ai suoi inserzionisti di pagare un “tot” per click più elevato rispetto a ciò che pagherebbero per la stessa pubblicità inserita su siti o portali che parlano di calcio, di libri, di corsi, di telefonini o di cronaca. 27 MOTORI DI RICERCA: Google • Il sito di GOOGLE - un esempio da imitare • Il sito di Google si presenta in modo spartano, senza animazioni in flash, senza musichette, senza sfondi multicolori, senza banner pubblicitari. Non c’è nulla che possa distrarre l’utente, che lo costringa a pensare dove cliccare. Ci sono soltanto informazioni. Google sa cosa vogliono gli utenti e li accontenta. • Pensate a quanti milioni di dollari Google sta rinunciando pur di non "sporcare" e rendere pesante la sua home page con l'inserimento di banner pubblicitari statici o animati in Flash, come invece fanno altri motori (MSN, YAHOO, ecc..). 28 GOOGLE: la ricerca • - Ricerche di base Operatore AND automatico; Google ignora le “stop words”* Google non supporta la ricerca di radici di parole (per es. aziend*) *Stop words o stopwords, è il nome dato alle parole che vengono filtrate a priori o conseguentemente ad un processo di analisi dei testi di documenti presenti in un data base, come ad esempio: - da, in, per, il, chi, su, ecc.. 29 GOOGLE: la ricerca • La ricerca avanzata: 30 GOOGLE: gli strumenti •Google libri (http://books.google.it/) Consente la ricerca e la lettura di libri resi disponibili online dagli editori aderenti all'iniziativa. In alcuni casi, per motivi legali, viene richiesta l’autenticazione per poter leggere i libri trovati 31 Google libri • I problemi incontrati sembrano essere fondamentalmente di tre tipi: • 1) quelli, ben noti, legati alle iniziative legali attraverso le quali la Authors Guild e la Association of American Publishers (oltre ad alcuni autori individuali) stanno cercando di bloccare la digitalizzazione dei testi sotto diritti; • 2) quelli, purtroppo assai meno noti, legati alle difficoltà tecniche del progetto e alle caratteristiche degli strumenti software e dei formati di codifica utilizzati; • 3) quelli, ovviamente influenzati anche dalle prime due tipologie, legati alla focalizzazione dell’esatta fisionomia del progetto stesso. 32 GOOGLE: gli strumenti •Google scholar (http://scholar.google.com/) -Che cos'è Google Scholar? Google Scholar offre un modo semplice per effettuare un'ampia ricerca sulla letteratura accademica. Con un unico servizio, puoi effettuare ricerche tra molte discipline e fonti: documenti approvati per la pubblicazione, tesi, libri, abstract e articoli di case editrici accademiche, ordini professionali, database di studi non ancora pubblicati, università e altre organizzazioni accademiche.. Funzioni di Google Scholar Cerca in diverse fonti utilizzando un unico e pratico sito Trova documenti, abstract e citazioni Individua un documento completo nella tua biblioteca oppure sul web Scopri documenti importanti in qualsiasi area di ricerca Come vengono classificati gli articoli? Google Scholar mira ad elencare gli articoli in base alla stessa classificazione adottata dal mondo scientifico, ossia valutando il testo completo di un articolo, l'autore, la pubblicazione in cui è riportato e il numero di volte in cui viene citato in altri documenti accademici. I risultati più pertinenti vengono sempre visualizzati nella prima pagina. 33 Liber Liber • Liber Liber, è una o.n.l.u.s. (organizzazione non lucrativa di utilità sociale) che ha come obiettivo la promozione di ogni espressione artistica e intellettuale. In particolare, Liber Liber si propone di favorire l'utilizzazione consapevole delle tecnologie informatiche in campo umanistico e di avvicinare la cultura umanistica e quella scientifica. • Grazie alla collaborazione di volontari e sponsor come la E-text, i capolavori della letteratura e le altre opere edite dal progetto Manuzio vengono prelevate mensilmente da oltre 150.000 utenti / mese • www.liberliber.it • www.intratext.com 34 I metamotori • • • • • Un metamotore è un'interfaccia che svolge la sua interrogazione su più motori di ricerca contemporaneamente. L'utente digita il testo da cercare nel matamotore che lancia la ricerca, collegandosi al sito di Google, Yahoo e altri, i quali inviano una risposta che può essere direttamente presentata all'utente, oppure filtrata secondo alcuni criteri, in primis l'eliminazione delle ripetizioni. Il metamotore filtra i risultati forniti da più di un motore di ricerca, per eliminare eventuali ripetizioni. Una ricerca su un metamotore può coinvolgere più database insieme, tanti quanti sono i database dei motori coinvolti. Questo è il principale vantaggio di questo tipo di motori: raggiungere una quota maggiore di siti della rete, rispetto all'interrogazione di un solo motore. Come svantaggio bisogna evidenziare la mancanza di strumenti per la ricerca avanzata, di cui sono invece dotati i singoli motori. • http://www.metacrawler.com/ (zoo) • http://www.ixquick.com/ 35 1. GLI OPAC (Online Public Acess Catalog) • Sono risorse gratuite e quindi consultabili anche al di fuori della biblioteca • Consentono di accertare l’esistenza di documenti all’interno delle biblioteche • La ricerca può avvenire per: autore, parole del titolo, soggetti e voci di classificazione Dewey 2. GLI OPAC e I METAOPAC • L’OPAC è il catalogo di una biblioteca • I metaOPAC permettono di interrogare più cataloghi contemporaneamente; la schermata di interrogazione è simile a quella di un opac con l’aggiunta di un elenco delle biblioteche sulle quali verrà effettuata la ricerca. 5. GLI OPAC: gli operatori logici • Di default gli OPAC compiono le ricerche utilizzano l’operatore AND • E’ possibile, però, compiere una ricerca utilizzando anche gli operatori “OR” e “NOT” e gli operatori di prossimità “ADJ” e “WITH” 9.GLI OPAC di biblioteche straniere • Library of Congress on line Catalog (http://catalog.loc.gov/) • The British Library (http://explore.bl.uk/primo_library/libweb/act ion/search.do?dscnt=1&dstmp=13966143937 48&vid=BLVU1&fromLogin=true ) • Karlsruhe Virtual Catalog (http://www.ubka.unikarlsruhe.de/kvk_en.html ) 1. CATALOGHI COMMERCIALI • Consentono di individuare libri e riviste in commercio editi in Italia o all’estero. • E’ possibile visualizzare gli abstract, gli indici dei volumi e talvolta anche un capitolo di prova 2. CATALOGHI COMMERCIALI • Cataloghi generali - Amazon (http://www.amazon.com ) - IBS (www.ibs.it ) - Feltrinelli (http://www.lafeltrinelli.it/ )