Risorse per la ricerca online Tirocinio Formativo Attivo Anno Accademico 2014-2015 Classe A-051 e A052 Geografia e laboratorio di informatica I motori di ricerca • Il motore di ricerca è un server che periodicamente ispeziona i documenti residenti sulla rete e li indicizza in base al loro contenuto e alla struttura dei loro link • Un motore di ricerca fornisce un servizio di ricerca sulla rete per parole chiave fornite dall’utente • Ogni ricerca produce una lista di link (ordinata per rilevanza) ai documenti contenenti quelle parole chiave 2 I motori di ricerca – http://www.google.com/ – http://www.bing.com – http://www.altavista.com/ – http://www.yahoo.com/ – http://www.excite.com/ – http://www.lycos.it/ – http://www.virgilio.it/ – ... 3 I motori di ricerca: operatori booleani AND, + Restringe il campo di ricerca igiene AND dentale oppure +igiene +dentale entrambi i termini devono essere presenti (default di Google) OR Estende il campo di ricerca igiene OR dentale AND NOT, - Restringe il campo di ricerca Non è riconosciuto da tutti i motori igiene AND NOT dentale oppure igiene -dentale “” le parole chiave si devono trovare di seguito “igiene dentale” 4 MOTORI DI RICERCA: Google • Settembre 1998, Menlo Park (CA): inizia la "Google Story" • Larry Page e Sergey Brin, due studenti di Stanford con il pallino della matematica, avevano 25 anni quando nel settembre del 1998 fondarono Google. • Poco dopo aver fondato l’azienda, per mancanza dei fondi necessari per l’acquisto di nuovi PC e di altro materiale, cercarono di venderla per un milione di dollari a diverse società finanziarie, oltre che a diretti concorrenti come Altavista e Yahoo, ottenendo solo dei rifiuti. • Oggi Google vale oltre 100 miliardi di dollari 5 MOTORI DI RICERCA: Google • • • La loro “impossible mission” era trovare un modo di catalogare tutte le informazioni presenti in internet e renderle rapidamente e facilmente disponibili a tutti. E ovviamente di farlo meglio di quanto già facessero Yahoo, Altavista, etc La cosa più innovativa è stata sicuramente l’invenzione del “PageRank”. Il pagerank è un metodo per determinare “l’importanza” di una pagina web. Mentre i motori esistenti, per indicizzare e posizionare i siti web nei loro database, si limitavano a contare le ricorrenze, nel testo delle pagine, dei termini cercati dagli utenti, e quindi mostravano ai primi posti siti web non sempre pertinenti con le informazioni desiderate, Page e Brin ebbero l’idea di verificare e contare non solo le ripetizioni delle parole ma anche i link che provenivano da altri siti e che puntavano ad una determinata pagina. Il loro ragionamento era semplice: se un certo sito è citato e consigliato da molti altri significa che ha dei contenuti interessanti e quindi è giusto farlo vedere prima di altri. 6 MOTORI DI RICERCA: Google • • • • In realtà il metodo adottato dai due studenti per calcolare il Page Rank è molto più complesso ed articolato; non si limita a contare i link ma tiene conto anche della “qualità” dei contenuti e dell’importanza dei siti da cui provengono i link. Ad esempio, se il sito della Microsoft consiglia o cita il mio sito, lo stesso acquista agli occhi di Google un valore maggiore rispetto al sito di un concorrente consigliato da un’azienda sconosciuta, e quindi avrà un PageRank più elevato del concorrente. Ci sono poi altri fattori che contribuiscono a determinare il PageRank, come l’anzianità del sito, il numero dei visitatori, ecc.. Credo che nessuno li conosca tutti, anche se sono stati ormai scritti migliaia di articoli e di libri sui “segreti del PageRank di Google”. Ciò che conta è che gli utenti, usando Google, si rendevano conto che era più facile e richiedeva meno tempo trovare le informazioni desiderate e pertanto abbandonavano gli altri motori e consigliavano agli amici e conoscenti di fare altrettanto. 7 MOTORI DI RICERCA: Google • Oggi Google reperisce e gestisce le informazioni presenti su internet grazie ad una propria rete composta da oltre 100.000 PC. Una potenza di calcolo che nessun’altra azienda al mondo possiede. • Google riesce parzialmente ad esplorare il DEEP WEB, ossia quelle informazioni contenute nel web, ma non indicizzate dai motori di ricerca e contenute nei database. Google riesce ad indicizzare anche documenti in formati non testuali (PDF, presentazioni, fogli di calcolo, immagini), ma si ferma (per ora) di fronte ai contenuti audio e video. • Google ha nel suo database oltre 8 miliardi di pagine web e ogni giorno i suoi utenti effettuano 200 milioni di ricerche in oltre 80 lingue. Attualmente è in atto il più ambizioso dei progetti mai attuati: la digitalizzazione dei volumi di intere biblioteche al fine di rendere il sapere umano alla portata di tutti. 8 MOTORI DI RICERCA: Google • Ma chi paga? Da dove provengono i soldi? • Ma tutti questi miliardi di dollari da dove arrivano, considerato che l’utilizzo di Google è gratuito? • Chi paga? • Questa è la domanda che spesso mi è stata posta da clienti, amici e conoscenti, e sono certo che anche molti di voi qualche volta se la saranno posta. • La risposta è molto semplice: Google non fa pubblicità a se stesso ma incassa molto per la pubblicità che fa agli altri. 9 MOTORI DI RICERCA: Google • • • • La pubblicità contestuale Un’altra delle idee brillanti di Google è stata la pubblicità contestuale, o mirata. Provate a immaginare… state guardando un film di fantascienza alla TV e c’è un’interruzione pubblicitaria con uno spot che parla di un fascicolo con DVD allegato, in edicola da domani; il titolo è “ai confini della realtà” (un mito degli anni ’60 per gli amanti di fantascienza). Quanti di voi cambierebbero canale per evitare questa pubblicità? Google fa la stessa cosa: se state cercando ad esempio “noleggio macchine per caffè” vedrete sulla parte destra della pagina dei risultati alcuni link pubblicitari di aziende che noleggiano macchine per caffè o che vendono cialde di caffè. Le probabilità che questa pubblicità dia fastidio sono quindi minime e nello stesso tempo, le probabilità che qualcuno clicchi su questi link sono alte. • Questo consente a Google di far accettare ai suoi inserzionisti di pagare un “tot” per click più elevato rispetto a ciò che pagherebbero per la stessa pubblicità inserita su siti o portali che parlano di calcio, di libri, di corsi, di telefonini o di cronaca. 10 MOTORI DI RICERCA: Google • Il sito di GOOGLE - un esempio da imitare • Il sito di Google si presenta in modo spartano, senza animazioni in flash, senza musichette, senza sfondi multicolori, senza banner pubblicitari. Non c’è nulla che possa distrarre l’utente, che lo costringa a pensare dove cliccare. Ci sono soltanto informazioni. Google sa cosa vogliono gli utenti e li accontenta. • Pensate a quanti milioni di dollari Google sta rinunciando pur di non "sporcare" e rendere pesante la sua home page con l'inserimento di banner pubblicitari statici o animati in Flash, come invece fanno altri motori (MSN, YAHOO, ecc..). 11 GOOGLE: la ricerca • - Ricerche di base Operatore AND automatico; Google ignora le “stop words”* Google non supporta la ricerca di radici di parole (per es. aziend*) *Stop words o stopwords, è il nome dato alle parole che vengono filtrate a priori o conseguentemente ad un processo di analisi dei testi di documenti presenti in un data base, come ad esempio: - da, in, per, il, chi, su, ecc.. 12 GOOGLE: la ricerca • La ricerca avanzata: 13 GOOGLE: gli strumenti •Google libri (http://books.google.it/) Consente la ricerca e la lettura di libri resi disponibili online dagli editori aderenti all'iniziativa. In alcuni casi, per motivi legali, viene richiesta l’autenticazione per poter leggere i libri trovati 14 Google libri • I problemi incontrati sembrano essere fondamentalmente di tre tipi: • 1) quelli, ben noti, legati alle iniziative legali attraverso le quali la Authors Guild e la Association of American Publishers (oltre ad alcuni autori individuali) stanno cercando di bloccare la digitalizzazione dei testi sotto diritti; • 2) quelli, purtroppo assai meno noti, legati alle difficoltà tecniche del progetto e alle caratteristiche degli strumenti software e dei formati di codifica utilizzati; • 3) quelli, ovviamente influenzati anche dalle prime due tipologie, legati alla focalizzazione dell’esatta fisionomia del progetto stesso. 15 GOOGLE: gli strumenti •Google scholar (http://scholar.google.com/ ) -Che cos'è Google Scholar? Google Scholar offre un modo semplice per effettuare un'ampia ricerca sulla letteratura accademica. Con un unico servizio, puoi effettuare ricerche tra molte discipline e fonti: documenti approvati per la pubblicazione, tesi, libri, abstract e articoli di case editrici accademiche, ordini professionali, database di studi non ancora pubblicati, università e altre organizzazioni accademiche.. Funzioni di Google Scholar Cerca in diverse fonti utilizzando un unico e pratico sito Trova documenti, abstract e citazioni Individua un documento completo nella tua biblioteca oppure sul web Scopri documenti importanti in qualsiasi area di ricerca Come vengono classificati gli articoli? Google Scholar mira ad elencare gli articoli in base alla stessa classificazione adottata dal mondo scientifico, ossia valutando il testo completo di un articolo, l'autore, la pubblicazione in cui è riportato e il numero di volte in cui viene citato in altri documenti accademici. I risultati più pertinenti vengono sempre visualizzati nella prima pagina. 16 Liber Liber • Liber Liber, è una o.n.l.u.s. (organizzazione non lucrativa di utilità sociale) che ha come obiettivo la promozione di ogni espressione artistica e intellettuale. In particolare, Liber Liber si propone di favorire l'utilizzazione consapevole delle tecnologie informatiche in campo umanistico e di avvicinare la cultura umanistica e quella scientifica. • Grazie alla collaborazione di volontari e sponsor come la E-text, i capolavori della letteratura e le altre opere edite dal progetto Manuzio vengono prelevate mensilmente da oltre 150.000 utenti / mese • www.liberliber.it • www.intratext.com 17 • • • • • I metamotori Un metamotore è un'interfaccia che svolge la sua interrogazione su più motori di ricerca contemporaneamente. L'utente digita il testo da cercare nel matamotore che lancia la ricerca, collegandosi al sito di Google, Yahoo e altri, i quali inviano una risposta che può essere direttamente presentata all'utente, oppure filtrata secondo alcuni criteri, in primis l'eliminazione delle ripetizioni. Il metamotore filtra i risultati forniti da più di un motore di ricerca, per eliminare eventuali ripetizioni. Una ricerca su un metamotore può coinvolgere più database insieme, tanti quanti sono i database dei motori coinvolti. Questo è il principale vantaggio di questo tipo di motori: raggiungere una quota maggiore di siti della rete, rispetto all'interrogazione di un solo motore. Come svantaggio bisogna evidenziare la mancanza di strumenti per la ricerca avanzata, di cui sono invece dotati i singoli motori. • http://www.metacrawler.com/ (zoo) • http://www.ixquick.com/ 18 1. GLI OPAC (Online Public Acess Catalog) • Sono risorse gratuite e quindi consultabili anche al di fuori della biblioteca • Consentono di accertare l’esistenza di documenti all’interno delle biblioteche • La ricerca può avvenire per: autore, parole del titolo, soggetti e voci di classificazione Dewey 2. GLI OPAC e I METAOPAC • L’OPAC è il catalogo di una biblioteca • I metaOPAC permettono di interrogare più cataloghi contemporaneamente; la schermata di interrogazione è simile a quella di un opac con l’aggiunta di un elenco delle biblioteche sulle quali verrà effettuata la ricerca. 5. GLI OPAC: gli operatori logici • Di default gli OPAC compiono le ricerche utilizzano l’operatore AND • E’ possibile, però, compiere una ricerca utilizzando anche gli operatori “OR” e “NOT” e gli operatori di prossimità “ADJ” e “WITH” 9.GLI OPAC di biblioteche straniere • Library of Congress on line Catalog (http://catalog.loc.gov/) • The British Library (http://explore.bl.uk/primo_library/libw eb/action/search.do? dscnt=1&dstmp=1396614393748&vid =BLVU1&fromLogin=true ) • Karlsruhe Virtual Catalog (http://www.ubka.unikarlsruhe.de/kvk_en.html ) 1. CATALOGHI COMMERCIALI • Consentono di individuare libri e riviste in commercio editi in Italia o all’estero. • E’ possibile visualizzare gli abstract, gli indici dei volumi e talvolta anche un capitolo di prova 2. CATALOGHI COMMERCIALI • Cataloghi generali - Amazon (http://www.amazon.com ) - IBS (www.ibs.it ) - Feltrinelli (http://www.lafeltrinelli.it/ )