Come leggere ed interpretare la letteratura scientifica e fornire al pubblico informazioni appropriate sui farmaci I motori di ricerca in internet: cosa sono e come funzionano Roberto Ricci, Servizio Sistema Informativo ed Informatico CRO – Aviano Udine 20 febbraio 2010 Cos’è, e cosa NON è Internet Di fatto, è la più grande rete mondiale di calcolatori interconnessi tra di loro. E’ un mezzo di comunicazione, mi permette di raggiungere le informazioni, non rappresenta le informazioni stesse. NON è un’enorme contenitore dove ricercare informazioni, nè tanto meno una banca dati strutturata. 2 Client / Server Server: entità che eroga un servizio su richiesta Client: entità che richiede il servizio 3 Il protocollo TCP/IP: Transmission Control Protocol / Internet Protocol E’ l’insieme di regole utilizzato dai calcolatori connessi ad internet per la spedizione, l’instradamento, il recapito delle informazioni. TCP/IP è un insieme di protocolli aperti, non commerciali, che quindi e’ possibile utilizzare su qualsiasi piattaforma hardware e software 4 Indirizzi IP e DNS L’indirizzo IP identifica in maniera univoca un dispositivo (server, pc, palmare, cellulare, etc) che è connesso ad Internet. E’ un gruppo di 4 numeri nell’intervallo 1-255, separati dal punto, ad es. 209.85.129.106, 89.96.209.179 Domain Name System. E' il sistema che permette di far corrispondere un dato indirizzo ip al corrispondente nome mnemonico. Il vantaggio di questo sistema è che per le persone è molto più semplice ricordare un nome di tipo mnemonico (ad esempio www.google.it) piuttosto che un indirizzo ip. 5 Uniform Resource Locator (URL) E’ l’indirizzo che identifica in maniera univoca un “oggetto”, una risorsa in Internet. Un URL è in genere composto da 3 parti: la prima specifica che tipo di protocollo viene utilizzato per accedere all’oggetto (ad es. per le pagine web si usa http, hypertext transfer protocol), la seconda identifica l’indirizzo del “server” su cui si trova la risorsa, ed infine la terza costituisce il percorso completo dell’oggetto. http://www.cro.sanita.fvg.it/biblioteca/set_bibliotecas cientifica.htm 6 Alcune sigle da ricordare IP: TCP: DNS: URL: HTTP: HTML: FTP: Internet Protocol Transmission Control Protocol Domain Name System Uniform Resource Locator HyperText Transfer Protocol HyperText Markup Language File Transfer Protocol 7 Il world wide web INTERNET 8 Ipertesti pagina link 9 Tab Bottone Immagine attiva Testo attivo 10 FTP: File Transfer Protocol Protocollo di trasferimento di file: permette di trasferire file da da un calcolatore ad un altro. Download: trasferimento di un file da un calcolatore remoto verso il proprio PC. Upload: trasferimento di un file dal proprio PC verso un calcolatore remoto. 11 Il world wide web: architettura File HTML browser Internet Client Server web server il protocollo: HTTP 12 Pagina web statica Il motore di ricerca indicizza il testo contenuto nella pagina statica, così com’è in quel determinato istante. 13 Pagine web dinamiche Una pagina web dinamica, in genere permette un certo grado di interattività all’utente. Anche in questo caso il motore indicizza il testo che trova nella pagina, ma non può indicizzare il contenuto del database Database 14 Come funziona un motore di ricerca Ci sarebbe una risposta molto lunga per questa domanda… dobbiamo accontentarci di quella breve! In sostanza, un motore di ricerca esegue la ricerca dei termini che noi inseriamo in un indice, tutto qui! Poi genera una lista di indirizzi web (con una sintesi del contenuto) che ritiene più rilevanti rispetto alla vostra richiesta. Quindi il problema è come costruire l’indice e soprattutto farlo bene. I primi motori di ricerca utilizzavano tecniche di indicizzazione testuali, prive di sistemi di ranking. Con il crescere del numero delle pagine web disponibili, la sola indicizzazione ha prodotto risultati non sempre attendibili. 15 Come funziona Google - 1 Per assegnare un rank alle pagine web, Google utilizza un sofisticato algoritmo proprietario, che si basa su più di 100 differenti criteri di calcolo. Non solo trova le pagine che contengono l’informazione cercata, ma le ordina secondo criteri di rilevanza, mostrando per primi i risultati più importanti. Per determinare l'importanza di una pagina, Google usa degli delle formule del tipo: “se nella pagina c’è questo: + 5 punti, se c’è quest’altro: + 7 punti, se manca questo: –14 punti. Nella valutazione, Google è molto sensibile a certi campi: ad esempio, se i termini da noi ricercati sono nel titolo di una pagina, o nelle sue aree attive cliccabili (link) Google ne fa salire il ranking. 16 Come funziona Google - 2 Infatti Google considera un link dalla pagina “A” verso la pagina “B” come un voto per la pagina “B”, tuttavia non tutti i link hanno lo stesso peso e Google utilizza delle regole per determinare anche la “qualità” del link. Tutte la pagine indicizzate da Google ottengono quindi un punteggio (Google Page-Rank©), in genere la home page di un sito ha un punteggio più alto, essendo in genere più referenziata, rispetto alle altre pagine. I “cinque minuti di celebrità” – cioè una momentanea presenza tra i primi dieci risultati – non si negano a nessuno. Questo sistema permette a Google di presentare sempre siti nuovi. 17 www.infonet.com Schede farmaci www.comune.net Informazioni sui farmaci www.cifav.it Sito web sui farmaci aggiornato e completo www.farmaci.net www.directory.com www.cittadino.net Directory farmaci Prontuario farmaci 18 Link http://www.prchecker.info/check_page_rank.php http://www.google.com/insights/ http://www.googlelabs.com/ 19