Analisi dei testi non strutturati Seminario sulla cultura e i metodi per la raccolta e per l’analisi dei dati a scopo operativo, tattico e strategico Mario Gentili www.mariogentili.it [email protected] La mente Il primo dei motori di ricerca è la nostra mente che usa una rete straordinaria: quella composta dai neuroni connessi tra di loro in maniera dinamica attraverso sinapsi (Neural Network). È proprio questo il principio che è alla base delle Artificial Neural Network oggetto dei prossimi incontri. 2 e p r Il processo di ricerca In entrambe le reti esiste un denominatore comune: il processo di ricerca p Esigenza di ricerca Valutazione dei risultati Scarto Memorizzazione Richiamo dell’informazione 3 a Ricerca Una buona ricerca In verità, quando si effettua una ricerca già ci è nota, in qualche modo, la risposta. Non in termini di contenuti, ma sicuramente dobbiamo sapere cosa ci si aspetta per poterne effettuare una valutazione di qualità. In altre parole dobbiamo sapere già se la risposta che otterremo è coerente a quanto richiesto e se risponde ai nostri obiettivi. Questo principio è alla base della nostra valutazione del risultato e ci consentirà di scartarlo, ovvero di archiviarlo. Solo in rari casi si “naviga senza meta”: in ogni caso l’obiettivo ultimo è di trovarne una. 4 Il paradosso di Socrate e di Menone Menone: E che tipo di domanda farete, Socrate, per sapere quello che non conoscete? Che cosa metterete come soggetto della richiesta? E se trovate che cosa volete, come saprete mai che questa è la cosa che non conoscevate? Socrate: so, Meno, cosa vuoi dire; ma lasciami evidenziare la disputa noiosa che state introducendo circa quello che l’uomo può richiedere in base alla sua conoscenza; se sa, non ha necessità di domandare; e se non sa, non può domandare. Non ha senso porci delle domande perché per poter riconoscere una risposta dovremmo conoscere quello che vorremmo esserci risposto 5 La mente Nell’ultimo secolo, gli studi sull’uomo riguardanti il processo alla base dell’apprendimento, della memorizzazione e del richiamo delle informazioni, ha dato luogo a due discipline: §la cibernetica, §la teoria matematica delle informazioni. La traduzione informatica dei modelli e la realizzazione di simulatori 6 La cibernetica Nasce con Wiener (che non riuscì mai ad imparare il percorso dell’autobus che lo portava a casa). Il concetto più importante che maggiormente ha lasciato traccia nello sviluppo dell’IA è quello di feedback, secondo il quale la discrepanza tra il modello costruito e quello effettivo, costituisce un importante nuovo segnale per il controllo del modello costruito affinché si modifichi … in qualche modo apprenda per correggere i suoi errori. Esempio: il termostato della caldaia: §Obiettivo: mantenere costante una temperatura; §Sistema di controllo: accensione/spegnimento della caldaia. La presenza di un sistema di controllo fa sì che sia nell’uomo, sia nella macchina, di possa parlare di scopo, e di comportamento diretto ad uno scopo. 7 La teoria matematica dell’informazione Si interessa del contenuto informativo presente in un messaggio (o in un segnale). Un messaggio contiene tanta più informazione quanto più è imprevedibile, tanto meno informazione quanto più è noto, scontato, prevedibile. Problema: Esiste un’equivalenza tra mente umana e computer in considerazione che entrambi sono dei sistemi di trasmissione e di ricezione di messaggi? Dimostrazione: test di Turing: se due sistemi danno le stesse risposte nella stessa situazione, allora sono equivalenti. Negazione: Searle:due sistemi possono dare la stessa risposta ma possono usare processi molto diversi per raggiungere quel risultato. In IA l’apprendimento è inteso come insieme di conoscenze e non come comportamento. Può essere: •di informazioni (di primo ordine), attraverso l’aggiunta di nuove conoscenze alla base dati precedente •di procedure (di secondo ordine), attraverso l’apprendimento di strategie che permettono di ottimizzare le procedure note. 8 Mente e computer: il connessionismo Apprendimento del computer = registrazione dati e loro recupero attraverso la lettura. Se non c’è lettura, non c’è recupero. Se non c’è recupero non esiste elaborazione. Apprendimento umano = registrazione dati e loro recupero, NON necessariamente tramite una loro lettura completa. La lettura può essere anche parziale e non necessariamente accurata. Elaborazione parallela delle info con i componenti che interagiscono tra di loro e che lavoro su livelli di soluzione parziali. Capacità di trarre vantaggio dagli errori. Thordike, padre del connessionismo, prendendo spunto dagli empiristi inglesi, parlava di apprendimento per prove ed errori e di risultati ripetibili in funzione della risposta allo stimolo. … e il computer? LE RETI NEURALI 9 Le reti neurali La conoscenza non risiede in singole unità o nodi, ma è distribuita su più unità ognuna delle quali contribuisce alla rappresentazione di molte conoscenze diverse ed il processo cognitivo non è seriale, bensì parallelo e cooperativo Apprendere = 1. rinforzare delle connessioni e lasciarne altre, 2. propagare l’errore all’indietro affinchè possa essere corretto … analogamente al nostro cervello 10 www e ricerca Il world wide web, ha portato a profondi mutamenti anche nei modi di scrittura, di ricerca e di lettura dei testi. Se scrivi con la penna d’oca devi grattare le sudate carte e intingere ad ogni istante, i pensieri si sovrappongono e il polso non tien dietro, se batti a macchina si accavallano le lettere, non puoi procedere alla velocità delle tue sinapsi, ma solo coi ritmi goffi della meccanica. Con lui (con essa?) invece le dita fantasticano, la mente sfiora la tastiera, via sull’ali dorate... (Umberto Eco – Il pendolo di Foucault 1998) i testi finalizzati ad essere pubblicati sulla rete hanno una caratteristica unica che nessun altro tipo di scrittura permetterebbe: si svincolano dalla sequenzialità e dalla linearità tradizionale che prevede l’organizzazione in capitoli e paragrafi, consentendo niente di meno di intraprendere diversi percorsi di lettura ove la linearità rappresenta la vera eccezione. In altre parole, nello scrivere , ricercare e leggere un il messaggio, si possono costruire vari percorsi attraverso l’uso di uno strumento potentissimo: l’ipertesto 11 Storia: commutazione di pacchetto All'inizio di internet troviamo una tecnica di condivisione delle linee telefoniche chiamata commutazione di pacchetto. La commutazione di pacchetto è un metodo di trasmissione per il quale ogni flusso di dati può essere scomposto in elementi più piccoli come se le singole pagine di un grosso libro venissero imbustate singolarmente per essere più agevolmente spedite e poi ricomposte all'arrivo. I pacchetti di dati ottenuti viaggiano con l'indirizzo del mittente e del destinatario, un numero identificativo per il riassemblaggio finale e tutte le informazioni utili per verificare la corretta spedizione del pacchetto secondo alcune regole chiamate protocolli di rete. 12 Storia: il concetto di rete Questo permette che il flusso di dati possa viaggiare in una rete di telecomunicazione scegliendo il punto di smistamento (nodo) in quel momento disponibile o più facilmente raggiungibile (non necessariamente il più vicino). Da questo nasce l'idea di rete costituita da nodi, che permette maggiore flessibiltà rispetto alla tradizionale rete, per esempio telefonica, costituita da successive stazioni via via da raggiungere. Negli anni Sessanta ARPA, agenzia di ricerca legata al Ministero della difesa americano, sviluppò questo progetto, che negli anni della guerra fredda rispondeva al'esigenza di mantenere le comunicazioni tra i comandi anche in caso di attacco nucleare. Il progetto prevedeva di economizzare linee telefoniche a larga banda a lunga distanza e di collegare computer per accesso remoto, scambio file e condivisione risorse (all'e-mail ci si arrivò qualche anno dopo). 13 Storia: le principali date Settembre 1969: viene creata la rete ARPAnet. Inizialmente furono 4 computer dislocati all'UCLA di Los Angeles, a Stanford, all'University of California di Santa Barbara e all'University of Utah. 1983: ARPAnet viene divisa in due reti: una militare non segreta MILnet e l’altra per la ricerca. 1 gennaio 1983: un TCP/IP un nuovo protocollo di rete. Il protocollo di rete, la modalità di trasmissione dei flussi di dati nella rete, fino allora utilizzato da ARPAnet si dimostrò insufficiente per gestire reti eterogenee (reti via satellite, reti via onde radio, Arpanet). TCP/IP permette di incapsulare i dati di reti di livello inferiore, come una busta spedita che venga inserita in un'ulteriore busta di servizio dal corriere, e permette quindi di trasmettere dati originati da reti diverse. L'adozione da parte di ARPAnet ne fa uno standard presto diffuso. Da molti questa viene considerata la data di nascita di Internet. 14 Storia: le principali date 1989 al CERN di Ginevra, Tim Berners-Lee definisce HTTP (Hyper-Text Transfer Protocol), protocollo di rete per supportare contenuti ipertestuali e HTML (Hyper-text Mark-up Language), il linguaggio di marcatura del testo con il quale descrivere i testi ipertestuali: nasce il World Wide Web, la parte di rete internet che più conosciamo, fatta di link tra pagine web, documenti e immagini. A partire dal 1991 negli Stati Uniti si definisce la nuova figura dei fornitori di servizi di connettività (Internet service provider). Nel 1998 sempre Tim Berners-Lee pensa alla possibilità di aggiungere informazioni semantiche sui contenuti dei dati, e definisce le basi di XML (Extensible Markup Language), un linguaggio di marcatura estensibile, ovvero adattabile alle più disparate esigenze di descrizione dei dati. Si tratta del cosiddetto Web semantico: un nuovo scenario del web,che prevede non solo di avere collezioni di pagine web collegate tra loro, come oggi siamo abituati, ma la possibilità di interpretare, elaborare e inferire relazioni tra i contenuti delle pagine pubblicate. Oggi – nasce Web 2.0 l'insieme di tutte quelle applicazioni online che permettono uno spiccato livello di interazione sito-utente (blog, forum, chat, Wikipedia, 15 Facebook, Myspace, Gmail, ecc.) Youtube, Documenti web: le pagine HTML Le pagine web sono scritte in HTML (Hypertext Markup Language): non è un linguaggio di programmazione, ma un linguaggio di descrizione del testo che viene poi interpretato dal browser (Explorer, Mozilla, Firefox, ecc.) che ne predispone la visualizzazione sullo schermo dell'utente opportunamente formattato. Poichè la visualizzazione del testo è demandata al browser, inclusa per esempio la scelta del carattere e della dimensione dello stesso, e poichè l'HTML talvolta non è sufficiente alle necessità dei designer grafici, si usano i CSS (Cascade Style Sheets), i fogli di stile che descrivono a parte l'aspetto grafico delle pagine. Eventuali azioni sono aggiunte includendo istruzioni realizzate con linguaggi specifici, quali per esempio Javascript o Java. 16 Documenti web: i tipi di pagine I siti web possono avere pagine statiche o dinamiche. Le pagine dinamiche sono frutto dell'interrogazione di un database e vengono create in tempo reale per visualizzare i risultati della ricerca (si pensi ai risultati su un motore di ricerca): in genere hanno come estensione di file asp, php, jsp. Le pagine statiche al contrario offrono dei contenuti preconfezionati, come le pagine di una rivista, anche se prevedono elementi "dinamici", come animazioni o filmati: in genere hanno come estensione di file htm, html, shtml. Importante ai fini della ricerca è conoscere e riconoscere i tipi di file e le loro estensioni da cercare o scaricare: negli Approfondimenti si può trovare una breve sintesi. 17 Cosa cercare A partire dagli anni novanta del secolo scorso si compie la folgorante espansione delle cosiddette "nuove tecnologie dell'informazione e della comunicazione": la diffusione dello scambio elettronico di informazioni, la convergenza verso le tecnologie digitali, la crescita esponenziale di internet e la liberalizzazione del settore delle telecomunicazioni sono considerate le tappe verso l'avvento di quella che viene chiamata la "società dell'informazione". Sempre più l'informazione, per lo più racchiusa in segni linguistici, si trasforma in bene economicamente trascinante, spesso più importante dei beni materiali. Ecco che gestire le informazioni diventa una delle attività cruciali in qualsiasi settore. Anzi, la gestione delle informazioni costituisce ormai il nucleo, la base di qualsiasi impresa economica, ma non solo. Data mining, web mining, information retrieval, information broking, sono alcuni dei neologismi che alludono a diverse attività che hanno in comune l'obiettivo di scoprire nuova conoscenza estraendo informazione da basi di dati (il cui significato è possibile raggiungere da questo link) 18 Conoscere La conoscenza è saper usare e produrre informazioni: saperle selezionare, saperne valutare la qualità e l'utilità, saperle gestire, saperle collegare, saperle manipolare per produrne di nuove allo scopo, per esempio, di progettare una ricerca, scrivere un libro, redigere un articolo, fare una tesi di laurea, decidere una strategia d'azione, tradurre un testo. Conoscere è anche saper ricercare 19 Ricercare: alcune semplici regole Per prima cosa è importante definire l'oggetto della ricerca: tutte le informazioni possibili su un certo argomento (per esempio per comporre una sitografia o raccogliere letteratura su un certo argomento) o un'informazione specifica (chi, cosa, come, perché, dove, quando, quanto?). Una volta chiariti questi aspetti, scegliamo lo strumento più adatto. Nel primo caso possiamo iniziare da una risorsa strutturata come una web directory generalista, un portale tematico o un catalogo di settore. Nel secondo caso, invece, è preferibile optare subito per la ricerca libera con un motore di ricerca automatico, possibilmente potente e veloce. Spesso la risposta al nostro quesito è contenuta già nell'elenco dei risultati proposti dal motore di ricerca stesso. 20 Ricercare: il motore di ricerca Se decidiamo di utilizzare un motore di ricerca, quali sono le parole chiave che meglio riassumono il concetto o l'oggetto su cui intendiamo condurre la nostra ricerca? Quali parole sono sicuramente presenti in tutte le pagine che trattano quell'argomento? Per ricerche più complesse può essere utile prendere carta e matita e, con il metodo delle libere associazioni, annotare tutti i termini, le parole, i sinonimi, le persone, le date, le abbreviazioni, gli slogan, i modi di dire ecc. che associamo a quell'oggetto. Oppure realizzare una mappa concettuale in cui fissare graficamente le relazioni tra l'oggetto della ricerca e i vari concetti correlati. Ricordarsi che talvolta può essere utile anche un approccio "archivistico" alla ricerca delle informazioni, mirando alla fonte, ovvero all'ente che emana o comunque è interessato ai documenti cercati. Tentare di costruire indirizzi del tipo www.nome-ente-esteso.it o www.sigla-ente.com può portare direttamente alla meta. 21 Ricercare: search engine I motori di ricerca (dall'inglese search engine) sono quei siti web che offrono gratuitamente un servizio di ricerca. Esistono ormai svariate centinaia di motori di ricerca sul web. Quali sono i migliori? Come scegliere quello più adatto alle proprie esigenze? Vediamo quali possono essere le modalità con le quali selezionare un motore di ricerca e non un altro, quali caratteristiche contraddistinguono i search engine attuali e come funzionano e quali possono essere le tipologie nelle quali suddividere questi servizi sul web. I motori di ricerca automatici si avvalgono di agenti software, di programmi robot (detti crawler, spider o indicizzatori) che navigano in internet e archiviano i testi di tutte le pagine che trovano (Le pagine web, a loro volta utilizzano specifiche tecniche per “farsi trovare dai motori di ricerca). Esempi di motore di ricerca automatici sono Google, All the web, Altavista 22 Ricercare: directory Una web directory (indice, catalogo) è un motore di ricerca in cui una redazione composta da esseri umani cataloga e suddivide i siti web in categorie, raggruppandoli per argomento. A differenza dei motori di ricerca automatici, nel caso delle web directory un sito deve essere segnalato da chi l'ha creato oppure individuato dalla redazione. Attualmente le web directory più famose e più grandi del mondo sono Yahoo! e Dmoz-Open directory project. Le directory, dunque, offrono liste di siti web, suddivisi in categorie a seconda del loro argomento e accompagnati da brevi descrizioni dei contenuti. Dalla categoria generale si passa alla sottocategoria, poi alla sotto-sottocategoria ecc., finché non si arriva al livello dove si trovano i siti che ci interessano. È possibile anche fare ricerche sulla descrizione dei siti contenuti nella categoria. Categorie e descrizioni sono suggerite dai realizzatori dei siti web e poi esaminate dalla redazione della directory. Tuttavia, per combinare le potenzialità del software alle caratteristiche delle web directory la maggior parte dei grandi motori di ricerca è dotata ormai sia di uno strumento di ricerca con indice generato in modo automatico, sia di una directory gestita23e recensita da una redazione umana. Ricercare: Meta motori I metamotori di ricerca (metacrawler) permettono di consultare contemporaneamente diversi motori eseguendo l'interrogazione da una stessa pagina e riportando in modo chiaro i risultati. I metacrawler riescono infatti a recuperare tutte le informazioni provenienti dagli archivi dei diversi motori presentandoli in un'unica lista e raggruppando i duplicati. L'efficacia dei metamotori è strettamente collegata al numero di motori che sono in grado di interrogare e alla possibilità o meno di recuperare tutte le informazioni in un'unica lista. Un buon esempio di questa tipologia di strumenti sono Ixquick e Clusty . In modo analogo funzionano anche alcuni software di ricerca, scaricabili da internet e da installare sul proprio computer, come l'ottimo Copernic; questi software offrono la possibilità di gestire i risultati delle proprie ricerche anche offline. 24 Ricercare: motori o web directory? Mentre le directory raccolgono poche informazioni sui siti (la semplice descrizione), un motore di ricerca raccoglie tutte le informazioni su tutte le pagine web che trova. Le più grandi directory coprono, oggi, tra uno e due milioni di siti, mentre il motore di ricerca Google, per esempio, dichiarava nel marzo del 2005 di avere in archivio oltre 8 miliardi di pagine web. Le directory sono create e gestite da persone secondo gusti e criteri personali che non necessariamente corrispondono alle nostre esigenze. Gli indici dei motori di ricerca sono generati in modo automatico in base alle parole o alle sequenze di parole trovate sulle pagine web senza che le informazioni vengano filtrate o riorganizzate, e applicando i metodi di ricerca si può ottenere direttamente ciò che si vuole. Con l'andare del tempo le directory rischiano di invecchiare, perché per esempio i siti scompaiono oppure cambiano indirizzo e le redazioni, per un motivo o per l'altro, non le aggiornano con sufficiente frequenza, mentre i motori di ricerca non corrono questo pericolo e si arricchiscono nel tempo con l'indicizzazione di nuove pagine web. 25 Ricercare: motori o web directory? Poiché i siti spesso comprendono pagine di argomento diverso, a volte è difficile classificare con categorie univoche. Problema che non si pone, invece, con il motore di ricerca automatico, poiché quest'ultimo considera ogni pagina come singola. Complessivamente si può dire che la directory è più adatta per una ricerca sistematica mirata alla raccolta possibilmente esaustiva di documenti validi su un certo argomento, mentre il motore di ricerca è particolarmente adatto per ricerche mirate al reperimento di un'informazione specifica. Alcuni esempi: Ricerca su un determinato poeta? Meglio una web directory Ricerca di un un verso di una poesia? Meglio il motore di ricerca automatico Una lista di siti dei maggiori quotidiani? Meglio utilizzare una web directory Una citazione da un articolo senza sapere da quale giornale è tratta? Meglio il motore di ricerca. 26 Google: panoramica A ogni ricerca effettuata, Google è in grado di mostrare sempre i risultati più significativi, oltre che più attinenti alle parole chiave utilizzate dall'utente. Per restituire i risultati più importanti, usa una tecnologia denominata PageRank, attraverso la quale valorizza al massimo la principale caratteristica del Web, ovvero i link. In pratica Google interpreta un link che collega una determinata pagina a un'altra come un voto, e pertanto misura l'importanza di una singola pagina in base ai voti che riceve, ovvero più sono i link che rimandano a una certa pagina più questa pagina è per qualche ragione interessante per la comunità degli internauti. Inoltre Google restituisce solamente pagine che contengono tutti i termini di ricerca inseriti dall'utente, nel testo, nel titolo, nella url della pagina o nei collegamenti ipertestuali che rimandano a quella pagina. Nel mostrare le descrizioni delle pagine risultate da una ricerca, Google estrapola la porzione di testo contenente i termini di una ricerca (evidenziandoli) direttamente nei risultati della stessa ricerca. È questa una caratteristica che rende Google uno strumento particolarmente prezioso. 27 La ricerca semplice La ricerca semplice permette di accedere alle risorse del motore usando una sintassi quasi naturale. È sufficiente inserire in maniera intuitiva una o più parole chiave (in genere i motori non fanno distinzione tra maiuscole e minuscole) per ottenere un elenco di documenti - titolo della pagina, un breve estratto con le parole chiave evidenziate in neretto e l'indirizzo o url della pagina stessa - che dovrebbero trattare l'argomento cercato. 28 La ricerca di una locuzione Se si cerca una locuzione o una frase esatta, racchiudere la locuzione o la frase tra virgolette alte doppie: "motori di ricerca", "Nel mezzo del cammin di nostra vita". In caso contrario, i vari termini inseriti potrebbero trovarsi sparpagliati nelle pagine proposte come risultato e non avere alcuna attinenza tra loro. In Google, se la locuzione o frase non è seguita da un altro termine sono sufficienti le virgolette iniziali. Perché una parola specifica sia sempre inclusa nei risultati, in molti motori di ricerca è necessario digitare nella maschera di interrogazione un segno più (+) preceduto da uno spazio e immediatamente dopo (senza spazio) la parola chiave. Perché invece una parola specifica sia sempre esclusa, digitare un segno meno (-) preceduto da uno spazio e immediatamente dopo (senza spazio) la parola chiave. Esempio: berlusconi +milan indicherà tutte le pagine in cui si parla di Berlusconi come presidente del Milan, mentre berlusconi −milan le escluderà. 29 Le stop words Occorre tenere presente che Google, come altri motori di ricerca, non prende in considerazione le cosiddette stop words, ovvero le parole più comuni come articoli, preposizioni semplici o singoli segni o lettere (in inglese, anche vocaboli come when e where). Quando vogliamo che tali parole siano incluse nei risultati della nostra ricerca, dunque, dovremo digitare un più (+) davanti alla parola in questione, oppure racchiudere la stringa (sequenza di parole, spazi e segni) tra virgolette. Esempio: se cerchiamo informazioni su papa Innocenzo I, digitando solamente innocenzo I otterremo molti risultati su altri papi e personaggi con lo stesso nome, perché il motore di ricerca avrà scambiato il numero ordinale per la lettera i. Viceversa, digitando innocenzo +I, oppure "innocenzo I", otterremo pagine riguardanti il solo papa in questione. 30 La ricerca di pagine in italiano Selezionare l'opzione «Cerca solo le pagine in italiano» per limitare la ricerca alle pagine web scritte in questa lingua. Non sempre, però, i filtri delle lingue sono sufficienti a limitare i risultati alle sole pagine in italiano; per forzare il motore di ricerca, è possibile inserire accanto alla chiave di ricerca parole tipiche della nostra lingua e solo di questa (articoli, preposizioni o congiunzioni), tanto frequenti da essere presenti in qualsiasi testo. Naturalmente, poiché come abbiamo detto sopra la maggior parte di queste parole molto comuni non viene presa in considerazione dal motore di ricerca, esse andranno racchiuse tra virgolette alte o precedute dal segno più (+):"narrativa contemporanea" +il oppure "narrativa contemporanea" "il". Analogamente, la stessa operazione può essere effettuata per le altre lingue. Riportiamo alcuni esempi per le principali lingue europee: § § § § § § § § 31 italiano: il, gli, della, sul inglese: but, how, are, and francese: sont, une, parce que tedesco: aber, als, der, ist, von spagnolo: y, esto, aunque portoghese: os, não (basta digitare nao) nederlandese: een, het svedese: och La ricerca avanzata 32 Operatori di ricerca Gli operatori più comuni, oltre al segno più (+), al segno meno (-) e alle virgolette alte (" "), di cui abbiamo già parlato, sono gli operatori booleani, accettati da quasi tutti i motori di ricerca. Si tratta di quattro parole - AND, OR, NOT e NEAR - in grado di espandere o restringere il campo della ricerca di un'interrogazione. Devono il nome al matematico inglese George Boole (1815-1864), che pose le basi della moderna logica simbolica. È consigliabile inserire questi operatori sempre a lettere maiuscole, sia per meglio distinguerli dalle parole chiave vere e proprie sia perché alcuni motori lo richiedono espressamente. 33 Operatori di ricerca Ogni motore di ricerca ha poi i suoi operatori, che possono variare per funzioni e denominazioni. L'operatore che limita la ricerca ai titoli delle pagine web, per esempio, in Altavista è title:, mentre in Google è intitle:. Nelle pagine che seguono ci riferiremo agli operatori utilizzati da Google. Tra i tanti operatori utili per le ricerche in ambito redazionale, linguistico, traduttivo ecc. citiamo in particolare intitle:, site:, inurl:, define:, filetype:, link:. Il primo, per esempio, possiamo utilizzarlo per trovare repertori, raccolte, dizionari e in generale risorse strutturate. Esempio: digitando intitle:proverbi troveremo repertori di proverbi; se invece digitiamo contadino intitle:proverbi, limiteremo la ricerca a quei proverbi che contengono il termine contadino. In modo analogo, se cerchiamo un dizionario contenente la parola distopia potremo digitare distopia intitle:dizionario. 34 Operatori di ricerca Un modo di indicare il paese di cui si stanno cercando documenti è quello di utilizzare l'operatore site: seguito dal dominio dei singoli paesi. Esempio: site:it (Italia), site:uk (Regno Unito), site:ar (Argentina), site:au (Australia), ecc. Un operatore di Google molto interessante è define: , che consente di reperire definizioni. È sufficiente digitare define: seguito dal termine in questione (senza spazio) e il motore restituisce pagine contenenti definizioni reperite all'interno di dizionari, glossari, enciclopedie ecc. 35 Operatori di ricerca 36 Operatori di ricerca 37 Servizi Google Directory Si tratta di una webdirectory basata su Dmoz-Open directory project . Google utilizza l'algoritmo che consente di determinare la popolarità di un sito anche per gli elenchi, pertanto i siti più popolari occupano le prime posizioni. Google Gruppi Con questo servizio Google ha archiviato i forum Usenet, una rete mondiale di forum di discussione, arrivando in alcuni casi fino a 20 anni indietro creando un archivio con circa un miliardo di messaggio. Ricerca immagini Froogle Lanciato nel 2002 deve il suo nome alla combinazione delle parole "Google" e "frugal" (frugale). Si tratta di una directory per fare acquisti con funzioni di ricerca simili a Google Directory che indirizza l'utente direttamente al punto vendita online dove è possibile acquistare l'oggetto cercato. Google Labs Si tratta di un sito utilizzato da Google per mostrare al pubblico i progetti in corso e permetterne la sperimentazione. 38 Servizi Google Ricerca Libri si tratta di un ambizioso programma con cui Google intende digitalizzare tutto il patrimonio librario del mondo e che permette la ricerca di testi interi o ampi estratti. Google Scholar Si tratta di un interessante servizio che permette la ricerca di studi, saggi e articoli scientifici pubblicati da università, enti e riviste scientifiche. Google Video Si tratta di un servizio che permette la ricerca all'interno di un'ampia selezione di video amatoriali. Google Ricerca Blog Si tratta di un servizio che permette la ricerca all'interno dei blog. Google Maps È una grande raccolta di mappe e foto satellitari, che permette di rintracciare indirizzi in tutto il mondo e vedere con straordinario dettaglio i più sperduti luoghi della Terra. Si può scaricare il software Google Earth che rende più agevole la navigazione e la visualizzazione di percorsi, itinerari, risorse ed anche edifici in 3D, creati dalla comunità degli utenti. 39 Dizionari e glossari Esistono numerosi siti, in varie lingue, che rappresentano eccellenti porte d'accesso al mondo dei reference on-line. Alcuni di essi sono molto bene organizzati e offrono vasti repertori di collegamenti a risorse terminologiche, enciclopediche, linguistiche e traduttive. Ecco una selezione dei più interessanti, che a loro volta rimandano a molte altre risorse analoghe. Un indirizzo fondamentale è il sito portale della Rete REI - Rete di eccellenza dell'italiano istituzionale, creato nel 2005 su iniziativa dei traduttori italiani della Commissione europea, e a cui contribuiscono con le loro risorse linguistiche molte delle maggiori istituzioni delle Comunità europee, pubblica amministrazione italiana e svizzera, università e centri di ricerca. Segnaliamo poi Sitoteca di Edigeo, grande biblioteca delle opere di consultazione online e yourDictionary, il più ricco tra i portali di questo genere, con migliaia di dizionari, enciclopedie e numerose altre risorse linguistiche in moltissime lingue. Altro noto e potente metadizionario è l'ormai classico OneLook, che permette di lanciare le proprie ricerche linguistiche e lessicali (definizioni e/o traduzioni) 40 simultaneamente in circa un migliaio di dizionari e glossari on-line. Facilitatori Term-minator è uno strumento di ricerca avanzata per traduttori, redattori e linguisti. Amplia e potenzia le possibilità di ricerca dei motori di ricerca proponendo stringhe di ricerca automatizzate che combinano in modo mirato gli operatori e limitano la ricerca al tipo di siti o al sito in cui le informazioni cercate sono contenute. La homepage del sito propone attualmente il seguente menu con 35 opzioni di ricerca. Per verificare la popolarità di un sito sul web, il motore di ricerca Alexa offre la funzione "Traffic ranking" con la quale si possono ottenere interessati informazioni sul numero di accessi a un sito, sul numero di link che vi ci portano, sul tipo di utenti che lo frequentano. Per vedere precedenti versioni della pagina di un sito verifica su Waybackmachine, una sorta di archivio del web dove sono conservate (molte) pagine web fuori linea. 41 e e Web semantico (*) – RDF – integrazione con BD di testi e di informazioni strutturate f contenuto W W3C Web –Xml –costruzione di template di documenti indipendenti dal i Web –Html –formattazione del contenuto della pagina e iperlink b l t Evoluzione del web Web 2 – interazione multimediale con l’utente (*) Nel contesto del Semantic Web, il termine semantico assume la valenza di “elaborabile dalla macchina" e non intende fare riferimento alla semantica del linguaggio naturale e alle tecniche di intelligenza artificiale 42 Evoluzione del web filtering 1- All’inizio era solo per motivi di sicurezza. 2- Si passa ad un filtraggio delle informazioni per evitare il “rumore” delle stesse in base a filtri per: categoria, argomenti. Si passa alle prime pagine personalizzate in base ad un profilo dichiarato o richiesto all’utente (compare il concetto di “la mia home page”) 3- Registrazione delle abitudini dell’utente e costruzione automatica del profilo con conseguente costruzione automatica della pagina utente. Primi siti “personalized store” (ie. Amazon store). L’utente non fa più query per tradurre la sua esigenza in domanda, ma gli si presentano già potenziali risposte alle sue abitudini di navigazione. Ma come produrre un profilo automatico? Bisogna conoscere chi naviga: diventa fondamentale sapere cosa legge nel web. Si fanno strada l’analisi semantica dei testi e le ANN ai fini della probabilità che il prossimo argomento che verrà letto sia proprio quello da proporre. 43 Text mining Cos’è? La capacità di trovare regolarità di rilievo in grandi dataset testuali. Di rilievo significa: § § § § non-trivial, nascosti, sconosciuti prima, potenzialmente utili. Ancora una volta si fanno strada l’analisi semantica dei testi e le ANN ai fini della scoperta delle regolarità. 44 Esempi di context sensitive search http://searchpoint.ijs.si http://docatlas.ijs.si 45