Analisi dei testi non strutturati
Seminario sulla cultura e i metodi per la raccolta e per l’analisi dei dati a scopo
operativo, tattico e strategico
Mario Gentili
www.mariogentili.it [email protected]
La mente
Il primo dei motori di ricerca è la nostra mente che usa una rete straordinaria: quella
composta dai neuroni connessi tra di loro in maniera dinamica attraverso sinapsi
(Neural Network).
È proprio questo il principio che è alla base delle Artificial Neural Network oggetto
dei prossimi incontri.
2
e
p
r
Il processo di ricerca
In entrambe le reti esiste un denominatore comune: il processo di ricerca
p
Esigenza di
ricerca
Valutazione dei
risultati
Scarto
Memorizzazione
Richiamo
dell’informazione
3
a
Ricerca
Una buona ricerca
In verità, quando si effettua una ricerca già ci è nota, in qualche modo, la risposta.
Non in termini di contenuti, ma sicuramente dobbiamo sapere cosa ci si aspetta per
poterne effettuare una valutazione di qualità.
In altre parole dobbiamo sapere già se la risposta che otterremo è coerente a quanto
richiesto e se risponde ai nostri obiettivi.
Questo principio è alla base della nostra valutazione del risultato e ci consentirà di
scartarlo, ovvero di archiviarlo.
Solo in rari casi si “naviga senza meta”: in ogni caso l’obiettivo ultimo è di trovarne
una.
4
Il paradosso di Socrate e di Menone
Menone: E che tipo di domanda farete, Socrate, per sapere quello che non conoscete?
Che cosa metterete come soggetto della richiesta? E se trovate che cosa volete, come
saprete mai che questa è la cosa che non conoscevate?
Socrate: so, Meno, cosa vuoi dire; ma lasciami evidenziare la disputa noiosa che
state introducendo circa quello che l’uomo può richiedere in base alla sua
conoscenza; se sa, non ha necessità di domandare; e se non sa, non può domandare.
Non ha senso porci delle domande perché per poter riconoscere una
risposta dovremmo conoscere quello che vorremmo esserci risposto
5
La mente
Nell’ultimo secolo, gli studi sull’uomo riguardanti il processo alla base
dell’apprendimento, della memorizzazione e del richiamo delle informazioni, ha
dato luogo a due discipline:
§la cibernetica,
§la teoria matematica delle informazioni.
La traduzione informatica dei modelli e la realizzazione di simulatori
6
La cibernetica
Nasce con Wiener (che non riuscì mai ad imparare il percorso dell’autobus che lo portava a
casa).
Il concetto più importante che maggiormente ha lasciato traccia nello sviluppo
dell’IA è quello di feedback, secondo il quale la discrepanza tra il modello costruito
e quello effettivo, costituisce un importante nuovo segnale per il controllo del
modello costruito affinché si modifichi … in qualche modo apprenda per correggere
i suoi errori.
Esempio: il termostato della caldaia:
§Obiettivo: mantenere costante una temperatura;
§Sistema di controllo: accensione/spegnimento della caldaia.
La presenza di un sistema di controllo fa sì che sia nell’uomo, sia nella macchina, di
possa parlare di scopo, e di comportamento diretto ad uno scopo.
7
La teoria matematica
dell’informazione
Si interessa del contenuto informativo presente in un messaggio (o in un segnale).
Un messaggio contiene tanta più informazione quanto più è imprevedibile, tanto
meno informazione quanto più è noto, scontato, prevedibile.
Problema: Esiste un’equivalenza tra mente umana e computer in considerazione che
entrambi sono dei sistemi di trasmissione e di ricezione di messaggi?
Dimostrazione: test di Turing: se due sistemi danno le stesse risposte nella stessa
situazione, allora sono equivalenti.
Negazione: Searle:due sistemi possono dare la stessa risposta ma possono usare
processi molto diversi per raggiungere quel risultato.
In IA l’apprendimento è inteso come insieme di conoscenze e non come
comportamento. Può essere:
•di informazioni (di primo ordine), attraverso l’aggiunta di nuove conoscenze
alla base dati precedente
•di procedure (di secondo ordine), attraverso l’apprendimento di strategie che
permettono di ottimizzare le procedure note.
8
Mente e computer: il
connessionismo
Apprendimento del computer = registrazione dati e loro recupero
attraverso la lettura. Se non c’è lettura, non c’è recupero. Se non c’è recupero non
esiste elaborazione.
Apprendimento umano = registrazione dati e loro recupero, NON
necessariamente tramite una loro lettura completa. La lettura può essere anche
parziale e non necessariamente accurata. Elaborazione parallela delle info con i
componenti che interagiscono tra di loro e che lavoro su livelli di soluzione parziali.
Capacità di trarre vantaggio dagli errori. Thordike, padre del connessionismo,
prendendo spunto dagli empiristi inglesi, parlava di apprendimento per prove ed
errori e di risultati ripetibili in funzione della risposta allo stimolo.
… e il computer?
LE RETI NEURALI
9
Le reti neurali
La conoscenza non risiede in singole unità o nodi, ma è distribuita su più unità
ognuna delle quali contribuisce alla rappresentazione di molte conoscenze diverse ed
il processo cognitivo non è seriale, bensì parallelo e cooperativo
Apprendere =
1. rinforzare delle connessioni e lasciarne altre,
2. propagare l’errore all’indietro affinchè possa essere corretto
… analogamente al nostro cervello
10
www e ricerca
Il world wide web, ha portato a profondi mutamenti anche nei modi di
scrittura, di ricerca e di lettura dei testi.
Se scrivi con la penna d’oca devi grattare le sudate carte e intingere ad ogni istante,
i pensieri si sovrappongono e il polso non tien dietro,
se batti a macchina si accavallano le lettere, non puoi procedere alla velocità delle
tue sinapsi, ma solo coi ritmi goffi della meccanica.
Con lui (con essa?) invece le dita fantasticano, la mente sfiora la tastiera, via
sull’ali dorate... (Umberto Eco – Il pendolo di Foucault 1998)
i testi finalizzati ad essere pubblicati sulla rete hanno una caratteristica unica che
nessun altro tipo di scrittura permetterebbe: si svincolano dalla sequenzialità e dalla
linearità tradizionale che prevede l’organizzazione in capitoli e paragrafi,
consentendo niente di meno di intraprendere diversi percorsi di lettura ove la
linearità rappresenta la vera eccezione. In altre parole, nello scrivere , ricercare e
leggere un il messaggio, si possono costruire vari percorsi attraverso l’uso di uno
strumento potentissimo: l’ipertesto
11
Storia: commutazione di pacchetto
All'inizio di internet troviamo una tecnica di condivisione delle linee telefoniche
chiamata commutazione di pacchetto.
La commutazione di pacchetto è un metodo di trasmissione per il quale ogni
flusso di dati può essere scomposto in elementi più piccoli come se le singole
pagine di un grosso libro venissero imbustate singolarmente per essere più
agevolmente spedite e poi ricomposte all'arrivo.
I pacchetti di dati ottenuti viaggiano con l'indirizzo del mittente e del
destinatario, un numero identificativo per il riassemblaggio finale e tutte le
informazioni utili per verificare la corretta spedizione del pacchetto secondo
alcune regole chiamate protocolli di rete.
12
Storia: il concetto di rete
Questo permette che il flusso di dati possa viaggiare in una rete di telecomunicazione
scegliendo il punto di smistamento (nodo) in quel momento disponibile o più
facilmente raggiungibile (non necessariamente il più vicino).
Da questo nasce l'idea di rete costituita da nodi, che permette maggiore
flessibiltà rispetto alla tradizionale rete, per esempio telefonica, costituita da
successive stazioni via via da raggiungere.
Negli anni Sessanta ARPA, agenzia di ricerca legata al Ministero della difesa
americano, sviluppò questo progetto, che negli anni della guerra fredda
rispondeva al'esigenza di mantenere le comunicazioni tra i comandi anche in
caso di attacco nucleare.
Il progetto prevedeva di economizzare linee telefoniche a larga banda a lunga
distanza e di collegare computer per accesso remoto, scambio file e condivisione
risorse (all'e-mail ci si arrivò qualche anno dopo).
13
Storia: le principali date
Settembre 1969: viene creata la rete ARPAnet. Inizialmente furono 4 computer
dislocati all'UCLA di Los Angeles, a Stanford, all'University of California di
Santa Barbara e all'University of Utah.
1983: ARPAnet viene divisa in due reti: una militare non segreta MILnet e l’altra per
la ricerca.
1 gennaio 1983: un TCP/IP un nuovo protocollo di rete.
Il protocollo di rete, la modalità di trasmissione dei flussi di dati nella rete, fino
allora utilizzato da ARPAnet si dimostrò insufficiente per gestire reti eterogenee
(reti via satellite, reti via onde radio, Arpanet).
TCP/IP permette di incapsulare i dati di reti di livello inferiore, come una busta
spedita che venga inserita in un'ulteriore busta di servizio dal corriere, e permette
quindi di trasmettere dati originati da reti diverse. L'adozione da parte di
ARPAnet ne fa uno standard presto diffuso.
Da molti questa viene considerata la data di nascita di Internet.
14
Storia: le principali date
1989 al CERN di Ginevra, Tim Berners-Lee definisce HTTP (Hyper-Text Transfer
Protocol), protocollo di rete per supportare contenuti ipertestuali e HTML
(Hyper-text Mark-up Language), il linguaggio di marcatura del testo con il quale
descrivere i testi ipertestuali: nasce il World Wide Web, la parte di rete internet
che più conosciamo, fatta di link tra pagine web, documenti e immagini.
A partire dal 1991 negli Stati Uniti si definisce la nuova figura dei fornitori di servizi
di connettività (Internet service provider).
Nel 1998 sempre Tim Berners-Lee pensa alla possibilità di aggiungere informazioni
semantiche sui contenuti dei dati, e definisce le basi di XML (Extensible Markup Language), un linguaggio di marcatura estensibile, ovvero adattabile alle più
disparate esigenze di descrizione dei dati. Si tratta del cosiddetto Web semantico:
un nuovo scenario del web,che prevede non solo di avere collezioni di pagine
web collegate tra loro, come oggi siamo abituati, ma la possibilità di interpretare,
elaborare e inferire relazioni tra i contenuti delle pagine pubblicate.
Oggi – nasce Web 2.0 l'insieme di tutte quelle applicazioni online che permettono
uno spiccato livello di interazione sito-utente (blog, forum, chat, Wikipedia,
15 Facebook, Myspace, Gmail, ecc.)
Youtube,
Documenti web: le pagine HTML
Le pagine web sono scritte in HTML (Hypertext Markup Language): non è un
linguaggio di programmazione, ma un linguaggio di descrizione del testo che
viene poi interpretato dal browser (Explorer, Mozilla, Firefox, ecc.) che ne
predispone la visualizzazione sullo schermo dell'utente opportunamente
formattato.
Poichè la visualizzazione del testo è demandata al browser, inclusa per esempio la
scelta del carattere e della dimensione dello stesso, e poichè l'HTML talvolta non
è sufficiente alle necessità dei designer grafici, si usano i CSS (Cascade Style
Sheets), i fogli di stile che descrivono a parte l'aspetto grafico delle pagine.
Eventuali azioni sono aggiunte includendo istruzioni realizzate con linguaggi
specifici, quali per esempio Javascript o Java.
16
Documenti web: i tipi di pagine
I siti web possono avere pagine statiche o dinamiche.
Le pagine dinamiche sono frutto dell'interrogazione di un database e vengono
create in tempo reale per visualizzare i risultati della ricerca (si pensi ai risultati
su un motore di ricerca): in genere hanno come estensione di file asp, php, jsp.
Le pagine statiche al contrario offrono dei contenuti preconfezionati, come le
pagine di una rivista, anche se prevedono elementi "dinamici", come animazioni
o filmati: in genere hanno come estensione di file htm, html, shtml.
Importante ai fini della ricerca è conoscere e riconoscere i tipi di file e le loro
estensioni da cercare o scaricare: negli Approfondimenti si può trovare una breve
sintesi.
17
Cosa cercare
A partire dagli anni novanta del secolo scorso si compie la folgorante espansione
delle cosiddette "nuove tecnologie dell'informazione e della comunicazione": la
diffusione dello scambio elettronico di informazioni, la convergenza verso le
tecnologie digitali, la crescita esponenziale di internet e la liberalizzazione del
settore delle telecomunicazioni sono considerate le tappe verso l'avvento di
quella che viene chiamata la "società dell'informazione". Sempre più
l'informazione, per lo più racchiusa in segni linguistici, si trasforma in bene
economicamente trascinante, spesso più importante dei beni materiali.
Ecco che gestire le informazioni diventa una delle attività cruciali in qualsiasi
settore. Anzi, la gestione delle informazioni costituisce ormai il nucleo, la base di
qualsiasi impresa economica, ma non solo. Data mining, web mining,
information retrieval, information broking, sono alcuni dei neologismi che
alludono a diverse attività che hanno in comune l'obiettivo di scoprire nuova
conoscenza estraendo informazione da basi di dati (il cui significato è possibile
raggiungere da questo link)
18
Conoscere
La conoscenza è saper usare e produrre informazioni: saperle selezionare, saperne
valutare la qualità e l'utilità, saperle gestire, saperle collegare, saperle manipolare
per produrne di nuove allo scopo, per esempio, di progettare una ricerca, scrivere
un libro, redigere un articolo, fare una tesi di laurea, decidere una strategia
d'azione, tradurre un testo.
Conoscere è anche saper ricercare
19
Ricercare: alcune semplici regole
Per prima cosa è importante definire l'oggetto della ricerca: tutte le informazioni
possibili su un certo argomento (per esempio per comporre una sitografia o
raccogliere letteratura su un certo argomento) o un'informazione specifica (chi,
cosa, come, perché, dove, quando, quanto?).
Una volta chiariti questi aspetti, scegliamo lo strumento più adatto. Nel primo caso
possiamo iniziare da una risorsa strutturata come una web directory generalista,
un portale tematico o un catalogo di settore. Nel secondo caso, invece, è
preferibile optare subito per la ricerca libera con un motore di ricerca automatico,
possibilmente potente e veloce. Spesso la risposta al nostro quesito è contenuta
già nell'elenco dei risultati proposti dal motore di ricerca stesso.
20
Ricercare: il motore di ricerca
Se decidiamo di utilizzare un motore di ricerca, quali sono le parole chiave che
meglio riassumono il concetto o l'oggetto su cui intendiamo condurre la nostra
ricerca? Quali parole sono sicuramente presenti in tutte le pagine che trattano
quell'argomento? Per ricerche più complesse può essere utile prendere carta e
matita e, con il metodo delle libere associazioni, annotare tutti i termini, le
parole, i sinonimi, le persone, le date, le abbreviazioni, gli slogan, i modi di dire
ecc. che associamo a quell'oggetto. Oppure realizzare una mappa concettuale in
cui fissare graficamente le relazioni tra l'oggetto della ricerca e i vari concetti
correlati.
Ricordarsi che talvolta può essere utile anche un approccio "archivistico" alla ricerca
delle informazioni, mirando alla fonte, ovvero all'ente che emana o comunque è
interessato ai documenti cercati. Tentare di costruire indirizzi del tipo
www.nome-ente-esteso.it o www.sigla-ente.com può portare direttamente alla
meta.
21
Ricercare: search engine
I motori di ricerca (dall'inglese search engine) sono quei siti web che offrono
gratuitamente un servizio di ricerca. Esistono ormai svariate centinaia di motori
di ricerca sul web. Quali sono i migliori? Come scegliere quello più adatto alle
proprie esigenze? Vediamo quali possono essere le modalità con le quali
selezionare un motore di ricerca e non un altro, quali caratteristiche
contraddistinguono i search engine attuali e come funzionano e quali possono
essere le tipologie nelle quali suddividere questi servizi sul web.
I motori di ricerca automatici si avvalgono di agenti software, di programmi robot
(detti crawler, spider o indicizzatori) che navigano in internet e archiviano i testi
di tutte le pagine che trovano (Le pagine web, a loro volta utilizzano specifiche
tecniche per “farsi trovare dai motori di ricerca). Esempi di motore di ricerca
automatici sono Google, All the web, Altavista
22
Ricercare: directory
Una web directory (indice, catalogo) è un motore di ricerca in cui una redazione
composta da esseri umani cataloga e suddivide i siti web in categorie,
raggruppandoli per argomento. A differenza dei motori di ricerca automatici, nel
caso delle web directory un sito deve essere segnalato da chi l'ha creato oppure
individuato dalla redazione. Attualmente le web directory più famose e più
grandi del mondo sono Yahoo! e Dmoz-Open directory project.
Le directory, dunque, offrono liste di siti web, suddivisi in categorie a seconda del
loro argomento e accompagnati da brevi descrizioni dei contenuti. Dalla
categoria generale si passa alla sottocategoria, poi alla sotto-sottocategoria ecc.,
finché non si arriva al livello dove si trovano i siti che ci interessano. È possibile
anche fare ricerche sulla descrizione dei siti contenuti nella categoria. Categorie e
descrizioni sono suggerite dai realizzatori dei siti web e poi esaminate dalla
redazione della directory.
Tuttavia, per combinare le potenzialità del software alle caratteristiche delle web
directory la maggior parte dei grandi motori di ricerca è dotata ormai sia di uno
strumento di ricerca con indice generato in modo automatico, sia di una directory
gestita23e recensita da una redazione umana.
Ricercare: Meta motori
I metamotori di ricerca (metacrawler) permettono di consultare
contemporaneamente diversi motori eseguendo l'interrogazione da una stessa
pagina e riportando in modo chiaro i risultati.
I metacrawler riescono infatti a recuperare tutte le informazioni provenienti dagli
archivi dei diversi motori presentandoli in un'unica lista e raggruppando i
duplicati. L'efficacia dei metamotori è strettamente collegata al numero di motori
che sono in grado di interrogare e alla possibilità o meno di recuperare tutte le
informazioni in un'unica lista.
Un buon esempio di questa tipologia di strumenti sono Ixquick e Clusty . In
modo analogo funzionano anche alcuni software di ricerca, scaricabili da internet
e da installare sul proprio computer, come l'ottimo Copernic; questi software
offrono la possibilità di gestire i risultati delle proprie ricerche anche offline.
24
Ricercare: motori o web directory?
Mentre le directory raccolgono poche informazioni sui siti (la semplice
descrizione), un motore di ricerca raccoglie tutte le informazioni su tutte le
pagine web che trova. Le più grandi directory coprono, oggi, tra uno e due
milioni di siti, mentre il motore di ricerca Google, per esempio, dichiarava nel
marzo del 2005 di avere in archivio oltre 8 miliardi di pagine web.
Le directory sono create e gestite da persone secondo gusti e criteri personali che
non necessariamente corrispondono alle nostre esigenze. Gli indici dei motori di
ricerca sono generati in modo automatico in base alle parole o alle sequenze di
parole trovate sulle pagine web senza che le informazioni vengano filtrate o
riorganizzate, e applicando i metodi di ricerca si può ottenere direttamente ciò
che si vuole.
Con l'andare del tempo le directory rischiano di invecchiare, perché per esempio i
siti scompaiono oppure cambiano indirizzo e le redazioni, per un motivo o per
l'altro, non le aggiornano con sufficiente frequenza, mentre i motori di ricerca
non corrono questo pericolo e si arricchiscono nel tempo con l'indicizzazione di
nuove pagine web.
25
Ricercare: motori o web directory?
Poiché i siti spesso comprendono pagine di argomento diverso, a volte è difficile
classificare con categorie univoche. Problema che non si pone, invece, con il
motore di ricerca automatico, poiché quest'ultimo considera ogni pagina come
singola.
Complessivamente si può dire che la directory è più adatta per una ricerca
sistematica mirata alla raccolta possibilmente esaustiva di documenti validi su
un certo argomento, mentre il motore di ricerca è particolarmente adatto per
ricerche mirate al reperimento di un'informazione specifica.
Alcuni esempi:
Ricerca su un determinato poeta? Meglio una web directory
Ricerca di un un verso di una poesia? Meglio il motore di ricerca automatico
Una lista di siti dei maggiori quotidiani? Meglio utilizzare una web directory
Una citazione da un articolo senza sapere da quale giornale è tratta? Meglio il motore
di ricerca.
26
Google: panoramica
A ogni ricerca effettuata, Google è in grado di mostrare sempre i risultati più
significativi, oltre che più attinenti alle parole chiave utilizzate dall'utente. Per
restituire i risultati più importanti, usa una tecnologia denominata PageRank,
attraverso la quale valorizza al massimo la principale caratteristica del Web,
ovvero i link. In pratica Google interpreta un link che collega una determinata
pagina a un'altra come un voto, e pertanto misura l'importanza di una singola
pagina in base ai voti che riceve, ovvero più sono i link che rimandano a una
certa pagina più questa pagina è per qualche ragione interessante per la comunità
degli internauti.
Inoltre Google restituisce solamente pagine che contengono tutti i termini di ricerca
inseriti dall'utente, nel testo, nel titolo, nella url della pagina o nei collegamenti
ipertestuali che rimandano a quella pagina. Nel mostrare le descrizioni delle
pagine risultate da una ricerca, Google estrapola la porzione di testo contenente i
termini di una ricerca (evidenziandoli) direttamente nei risultati della stessa
ricerca. È questa una caratteristica che rende Google uno strumento
particolarmente prezioso.
27
La ricerca semplice
La ricerca semplice permette di accedere alle risorse del motore usando una sintassi
quasi naturale. È sufficiente inserire in maniera intuitiva una o più parole chiave
(in genere i motori non fanno distinzione tra maiuscole e minuscole) per ottenere
un elenco di documenti - titolo della pagina, un breve estratto con le parole
chiave evidenziate in neretto e l'indirizzo o url della pagina stessa - che
dovrebbero trattare l'argomento cercato.
28
La ricerca di una locuzione
Se si cerca una locuzione o una frase esatta, racchiudere la locuzione o la frase tra
virgolette alte doppie: "motori di ricerca", "Nel mezzo del cammin di nostra
vita".
In caso contrario, i vari termini inseriti potrebbero trovarsi sparpagliati nelle
pagine proposte come risultato e non avere alcuna attinenza tra loro. In Google,
se la locuzione o frase non è seguita da un altro termine sono sufficienti le
virgolette iniziali.
Perché una parola specifica sia sempre inclusa nei risultati, in molti motori di ricerca
è necessario digitare nella maschera di interrogazione un segno più (+) preceduto
da uno spazio e immediatamente dopo (senza spazio) la parola chiave.
Perché invece una parola specifica sia sempre esclusa, digitare un segno meno (-)
preceduto da uno spazio e immediatamente dopo (senza spazio) la parola chiave.
Esempio: berlusconi +milan indicherà tutte le pagine in cui si parla di Berlusconi
come presidente del Milan, mentre berlusconi −milan le escluderà.
29
Le stop words
Occorre tenere presente che Google, come altri motori di ricerca, non prende in
considerazione le cosiddette stop words, ovvero le parole più comuni come
articoli, preposizioni semplici o singoli segni o lettere (in inglese, anche vocaboli
come when e where). Quando vogliamo che tali parole siano incluse nei risultati
della nostra ricerca, dunque, dovremo digitare un più (+) davanti alla parola in
questione, oppure racchiudere la stringa (sequenza di parole, spazi e segni) tra
virgolette.
Esempio: se cerchiamo informazioni su papa Innocenzo I, digitando solamente
innocenzo I otterremo molti risultati su altri papi e personaggi con lo stesso
nome, perché il motore di ricerca avrà scambiato il numero ordinale per la lettera
i. Viceversa, digitando innocenzo +I, oppure "innocenzo I", otterremo pagine
riguardanti il solo papa in questione.
30
La ricerca di pagine in italiano
Selezionare l'opzione «Cerca solo le pagine in italiano» per limitare la ricerca alle
pagine web scritte in questa lingua.
Non sempre, però, i filtri delle lingue sono sufficienti a limitare i risultati alle sole
pagine in italiano; per forzare il motore di ricerca, è possibile inserire accanto
alla chiave di ricerca parole tipiche della nostra lingua e solo di questa (articoli,
preposizioni o congiunzioni), tanto frequenti da essere presenti in qualsiasi testo.
Naturalmente, poiché come abbiamo detto sopra la maggior parte di queste
parole molto comuni non viene presa in considerazione dal motore di ricerca,
esse andranno racchiuse tra virgolette alte o precedute dal segno più
(+):"narrativa contemporanea" +il oppure "narrativa contemporanea" "il".
Analogamente, la stessa operazione può essere effettuata per le altre lingue.
Riportiamo alcuni esempi per le principali lingue europee:
§
§
§
§
§
§
§
§
31
italiano: il, gli, della, sul
inglese: but, how, are, and
francese: sont, une, parce que
tedesco: aber, als, der, ist, von
spagnolo: y, esto, aunque
portoghese: os, não (basta digitare nao)
nederlandese: een, het
svedese: och
La ricerca avanzata
32
Operatori di ricerca
Gli operatori più comuni, oltre al segno più (+), al segno meno (-) e alle virgolette
alte (" "), di cui abbiamo già parlato, sono gli operatori booleani, accettati da
quasi tutti i motori di ricerca.
Si tratta di quattro parole - AND, OR, NOT e NEAR - in grado di espandere o
restringere il campo della ricerca di un'interrogazione.
Devono il nome al matematico inglese George Boole (1815-1864), che pose le basi
della moderna logica simbolica.
È consigliabile inserire questi operatori sempre a lettere maiuscole, sia per meglio
distinguerli dalle parole chiave vere e proprie sia perché alcuni motori lo
richiedono espressamente.
33
Operatori di ricerca
Ogni motore di ricerca ha poi i suoi operatori, che possono variare per funzioni e
denominazioni.
L'operatore che limita la ricerca ai titoli delle pagine web, per esempio, in
Altavista è title:, mentre in Google è intitle:.
Nelle pagine che seguono ci riferiremo agli operatori utilizzati da Google.
Tra i tanti operatori utili per le ricerche in ambito redazionale, linguistico, traduttivo
ecc. citiamo in particolare intitle:, site:, inurl:, define:, filetype:, link:. Il primo,
per esempio, possiamo utilizzarlo per trovare repertori, raccolte, dizionari e in
generale risorse strutturate.
Esempio: digitando intitle:proverbi troveremo repertori di proverbi; se invece
digitiamo contadino intitle:proverbi, limiteremo la ricerca a quei proverbi che
contengono il termine contadino. In modo analogo, se cerchiamo un dizionario
contenente la parola distopia potremo digitare distopia intitle:dizionario.
34
Operatori di ricerca
Un modo di indicare il paese di cui si stanno cercando documenti è quello di
utilizzare l'operatore site: seguito dal dominio dei singoli paesi.
Esempio: site:it (Italia), site:uk (Regno Unito), site:ar (Argentina), site:au
(Australia), ecc.
Un operatore di Google molto interessante è define: , che consente di reperire
definizioni. È sufficiente digitare define: seguito dal termine in questione (senza
spazio) e il motore restituisce pagine contenenti definizioni reperite all'interno di
dizionari, glossari, enciclopedie ecc.
35
Operatori di ricerca
36
Operatori di ricerca
37
Servizi
Google Directory Si tratta di una webdirectory basata su Dmoz-Open directory
project . Google utilizza l'algoritmo che consente di determinare la popolarità di
un sito anche per gli elenchi, pertanto i siti più popolari occupano le prime
posizioni.
Google Gruppi Con questo servizio Google ha archiviato i forum Usenet, una rete
mondiale di forum di discussione, arrivando in alcuni casi fino a 20 anni indietro
creando un archivio con circa un miliardo di messaggio. Ricerca immagini
Froogle Lanciato nel 2002 deve il suo nome alla combinazione delle parole "Google"
e "frugal" (frugale). Si tratta di una directory per fare acquisti con funzioni di
ricerca simili a Google Directory che indirizza l'utente direttamente al punto
vendita online dove è possibile acquistare l'oggetto cercato. Google Labs Si tratta
di un sito utilizzato da Google per mostrare al pubblico i progetti in corso e
permetterne la sperimentazione.
38
Servizi
Google Ricerca Libri si tratta di un ambizioso programma con cui Google intende
digitalizzare tutto il patrimonio librario del mondo e che permette la ricerca di
testi interi o ampi estratti.
Google Scholar Si tratta di un interessante servizio che permette la ricerca di studi,
saggi e articoli scientifici pubblicati da università, enti e riviste scientifiche.
Google Video Si tratta di un servizio che permette la ricerca all'interno di
un'ampia selezione di video amatoriali.
Google Ricerca Blog Si tratta di un servizio che permette la ricerca all'interno dei
blog.
Google Maps È una grande raccolta di mappe e foto satellitari, che permette di
rintracciare indirizzi in tutto il mondo e vedere con straordinario dettaglio i più
sperduti luoghi della Terra. Si può scaricare il software Google Earth che rende
più agevole la navigazione e la visualizzazione di percorsi, itinerari, risorse ed
anche edifici in 3D, creati dalla comunità degli utenti.
39
Dizionari e glossari
Esistono numerosi siti, in varie lingue, che rappresentano eccellenti porte d'accesso
al mondo dei reference on-line. Alcuni di essi sono molto bene organizzati e
offrono vasti repertori di collegamenti a risorse terminologiche, enciclopediche,
linguistiche e traduttive.
Ecco una selezione dei più interessanti, che a loro volta rimandano a molte altre
risorse analoghe.
Un indirizzo fondamentale è il sito portale della Rete REI - Rete di eccellenza
dell'italiano istituzionale, creato nel 2005 su iniziativa dei traduttori italiani della
Commissione europea, e a cui contribuiscono con le loro risorse linguistiche
molte delle maggiori istituzioni delle Comunità europee, pubblica
amministrazione italiana e svizzera, università e centri di ricerca.
Segnaliamo poi Sitoteca di Edigeo, grande biblioteca delle opere di consultazione
online e yourDictionary, il più ricco tra i portali di questo genere, con migliaia di
dizionari, enciclopedie e numerose altre risorse linguistiche in moltissime lingue.
Altro noto e potente metadizionario è l'ormai classico OneLook, che permette di
lanciare le proprie ricerche linguistiche e lessicali (definizioni e/o traduzioni)
40
simultaneamente
in circa un migliaio di dizionari e glossari on-line.
Facilitatori
Term-minator è uno strumento di ricerca avanzata per traduttori, redattori e linguisti.
Amplia e potenzia le possibilità di ricerca dei motori di ricerca proponendo
stringhe di ricerca automatizzate che combinano in modo mirato gli operatori e
limitano la ricerca al tipo di siti o al sito in cui le informazioni cercate sono
contenute. La homepage del sito propone attualmente il seguente menu con 35
opzioni di ricerca.
Per verificare la popolarità di un sito sul web, il motore di ricerca Alexa offre la
funzione "Traffic ranking" con la quale si possono ottenere interessati
informazioni sul numero di accessi a un sito, sul numero di link che vi ci portano,
sul tipo di utenti che lo frequentano.
Per vedere precedenti versioni della pagina di un sito verifica su
Waybackmachine, una sorta di archivio del web dove sono conservate (molte)
pagine web fuori linea.
41
e
e
Web semantico (*) – RDF – integrazione con BD di testi e di
informazioni strutturate
f
contenuto
W
W3C
Web –Xml –costruzione di template di documenti indipendenti dal
i
Web –Html –formattazione del contenuto della pagina e iperlink
b l
t
Evoluzione del web
Web 2 – interazione multimediale con l’utente
(*) Nel contesto del Semantic Web, il termine semantico assume la valenza di “elaborabile dalla
macchina" e non intende fare riferimento alla semantica del linguaggio naturale e alle tecniche di
intelligenza artificiale
42
Evoluzione del web filtering
1- All’inizio era solo per motivi di sicurezza.
2- Si passa ad un filtraggio delle informazioni per evitare il “rumore” delle stesse in
base a filtri per: categoria, argomenti. Si passa alle prime pagine personalizzate
in base ad un profilo dichiarato o richiesto all’utente (compare il concetto di “la
mia home page”)
3- Registrazione delle abitudini dell’utente e costruzione automatica del profilo con
conseguente costruzione automatica della pagina utente. Primi siti “personalized
store” (ie. Amazon store). L’utente non fa più query per tradurre la sua esigenza
in domanda, ma gli si presentano già potenziali risposte alle sue abitudini di
navigazione.
Ma come produrre un profilo automatico?
Bisogna conoscere chi naviga: diventa fondamentale sapere cosa legge nel web. Si
fanno strada l’analisi semantica dei testi e le ANN ai fini della probabilità che il
prossimo argomento che verrà letto sia proprio quello da proporre.
43
Text mining
Cos’è?
La capacità di trovare regolarità di rilievo in grandi dataset testuali.
Di rilievo significa:
§
§
§
§
non-trivial,
nascosti,
sconosciuti prima,
potenzialmente utili.
Ancora una volta si fanno strada l’analisi semantica dei testi e le ANN ai fini della
scoperta delle regolarità.
44
Esempi di context sensitive search
http://searchpoint.ijs.si
http://docatlas.ijs.si
45