Dati delle nostre ONG - Salesian Digital Library

'Linked Data', Semantic Web, Salesiani, ONG
INTRODUZIONE
Ecco una piccola prova per un sito web. Si chiama la prova di 5 stelle:
Ci sono dati disponibili sulle pagine del sito – in qualsiasi forma
Ci sono dati strutturati (p.e. una tabella invece di un'immagine scannerizzata di una tabella)
I dati strutturati sono di un formato aperto (p.e. .csv) invece di un formato proprietario (p.e.
excel spreadhseet .xsl).
Ogni cosa è stat evidenziato con un URL (i.e. http:// etc)
I vostri dati sono stati collegati con altri dati (soprattutto dati trovati su altri siti salesiani).
Come avete fatto? La stragrande maggioranza di siti web arrivano a 2 stelle!
Il Web potrebbe essere più largamente conosciuto per il fatto che contiene molti documenti – aprite
www.sdb.org per esempio, o Salesian Digital Library (SDL), e si aspetta di essere in grado di
leggere o scaricare quasi tutti i documenti salesiani in una varietà di lingue. Ma proprio tale sito
contiene una quantità enorme di dati che non sono scaricabili. Andate alla pagina 'Regione' e
cliccate sulla mappa qui presente, per esempio Africa-Madagascar, e si arriva a una pagina che è
essenzialmente costituita da dati, tra cui una mappa di Google, un elenco di codici delle ispettorie,
informazioni su ogni ispettoria. Ma attenzione - questi dati sono incorporati in una pagina web! Un
essere umano può leggerli e darli un senso, avendo già alcune conoscenze implicite circa i dati - il
computer non può. Alle sue spalle si trova un database, ma non si vede se non avete accesso ad
esso. La pagina non mostra un modello centralizzato di dati (il database può farlo - si tratta di un
database MySQL). I dati sulla pagina 'Africa-Madagascar' sono strutturati in una certa forma, salvo
che solo gli esseri umani possono comprendere la struttura.
Immaginate, poi, cosa potrebbe accadere se un computer potesse comprendere la struttura della pagina
e collegare a una pagina da qualche altra parte che può avere ulteriori informazioni strutturate che si
possono capire nello stesso modo, anche se potrebbe essere strutturato in modo diverso. In pratica
questo significa che senza l'accesso ai due database diversi, che possono di per sé essere strutturati in
modo molto diverso, un computer potrebbe comprendere due pagine web contenenti dati da tali banche
dati, e collegarli tra loro, così da costruirne un altro. Immaginate, poi, se ogni pagina di 'dati' salesiani
fosse comprensibile da un computer - e il computer, via web, potesse immediatamente collegarle tutte e
far loro costruirne un’altra! È questa la visione spiegata qui.
In realtà, la pagina che state guardando, se siete veramente andati alla pagina Africa-Madagascar, ha
avuto alcuni contrassegni semantici (semantic tagging) aggiunti al suo interno, e potreste vederli
cercando nella visualizzazione 'codice sorgente'. Questo significa che il computer ora sa cosa fare con i
dati in quella pagina. Il tagging semantico è potente e può essere uno dei pochi esempi di una
tecnologia che è completamente invisibile per l'utente, ma 'al lavoro' lo stesso. In termini biblici, è
come lo spruzzo del lievito nella farina!
Allora, il sito web come una rete di documenti rimane solo quella – una rete di documenti. Ma oggi ci
sono tantissimi dati contenuti nei nostri siti – sia nei stessi documenti che nelle pagine html che non
sono documenti. Bisogna un Web di dati, una rete di dati.
La questione di basi di dati
I governi e le grandi aziende contengono i loro dati un uno (o più) database. Una pagina web richiama
certi dati da quel database. La Congregazione salesiana deve considerarsi al livello di un governo o
un'azienda data la sua grandezza, le sue attività, la sua diffusione nel mondo. Comunque in realtà non
esiste un singolo database, e magari la Congregazione ha già un cammino da percorrere al riguardo al
suo livello centrale. Ci sono due database, uno di sdb.org l'altro di ANS che contengono dati che
appoggiano le necessità di questi due siti, ma non contengono tutti i dati che a volte anche le nostre
strutture chiedono.
Non tutto è perduto, però. La Direzione General sta per aggiornare sia il database che le politiche al
riguardo, ma in realtà ci sono decine di database salesiani – tra cui quelli della Direzioni Generale,
delle ispettorie, delle ONG salesiane.... Dunque la soluzione è di adottare un approccio che consente
collegamenti tra alcuni dati in tutti questi database. È possibile.
Dati Collegati
Vi sono attualmente alcuni termini in uso comune in questo campo: dati collegati, web semantico, web
3.0. Potrebbero essere modi di dire la stessa cosa, ma non esattamente nello stesso modo. Sono modi
diversi di guardare la stessa realtà: la visione originale di Tim Berners-Lee, inventore del WWW.
Voleva una rete veramente legata in cui le persone e le cose (questa ultima voce è importante) possono
essere tra loro collegati, ossia, il web semantico.
Il Web 2.0 ha visto infinite connessioni tra la gente. Il suo successo è dovuto soprattutto a blog, wiki,
poi le reti sociali, che sono estensioni di tecnologie semplici per l'utente da utilizzare. Ma il Web 2.0
non è mai stato in grado di collegare efficacemente i dati. Perché?
Poiché i dati sono spesso incorporati in un blocco di testo, o almeno posto su una pagina (web) HTML:
se scriviamo 'AFO' in una frase (AFO è un elemento di dati trovati tra altre 92 ispettorie salesiane nel
nostro database di sdb.org), un salesiano sa che si riferisce ad Africa Occidentale Francofona, e che ci
sono alcune persone che conosciamo che vivono in quella Visitatoria, o che si tratta di un scenario
politico delicato, e così via .... Gli stessi dati potrebbero essere in una tabella di dati - ma il computer
non conosce la differenza tra una frase e una tabella di dati, e certamente non sa come collegare i dati
relativi ad AFO con altri dati di un paese che fa parte di questa Visitatoria, ad esempio Camerun; dati
che sarebbero disponibili altrove sul web. E per dire la verità, il computer non ha idea neppure che cosa
intendiamo per 'ispettoria', o 'visitatoria'.....
Un essere umano può capire il contenuto implicito, cosa significa tutto
un computer vede solo che si tratta di una pagina html. Non ha comprensione implicita
Dobbiamo aiutare le macchine a capire il Web in modo che possano aiutarci a capire 'cose'. I dati sono
queste 'cose', non sono persone, anche se possono essere informazioni su persone, come è una foto, e
spesso non vi è alcun legame tra una cosa e un'altra. Sono semplicemente .... dati: un nome, una figura,
una 'cosa'! Naturalmente, nessun computer mai 'capisce' nulla! Ma possiamo inserire informazioni
significative in modo che un computer possa manipolarle a scopi utili.
Soluzione?
In realtà la soluzione è piuttosto semplice, a un certo livello. Un computer può fare qualcosa con:
<http://www.sdb.org/vocabulary/salesian#provinceCode>,
specialmente se questo stesso indirizzo (è un indirizzo, un indirizzo Web conosciuto anche come URL
o più genericamente come URI), contiene una definizione di una sigla ispettoriale (una sigla con tre
lettere, ad esempio).
Se uno dei valori di provinceCode è AFO, e se parliamo di AFO in diverse parti del sito, il computer
può collegare il vocabolario che descrive la sigla ispettoriale con un tag di questo tipo:
<p property=“provinceCode” content=“Africa francofona occidentale” lang=“it”>AFO</p>.
Se diamo anche altre informazioni simili su Costa d'Ivorio (Ivory Coast in inglese) in questo modo:
<http//www.sdb.org/vocabulary/salesian#inCountry>
Dove Ivory Coast è riconosciuto come un paese nell’elenco dei paesi che si trova all’indirizzo:
<http://www.sdb.org/pmwiki/pmwiki.php?n=Termbase.Africa-Madagascar>
E anche in:
<http://www.geonames.org/>,
Poi possiamo scrivere una ‘frase’, nella forma http così:
<http://www.sdb.org/vocabulary/salesian#ProvinceCode>
[questo si può indicare come il ‘soggetto’, AFO]
<http//www.sdb.org/vocabulary/salesian#inCountry>
[questo si può indicare come ‘predicato’ ‘country’, che vuol dire che un paese con questo nome fa parte
di AFO]
<http://www.sdb.org/pmwiki/pmwiki.php?n=Termbase.Africa-Madagascar>
[si può indicare questo come ‘oggetto’ o il ‘valore del predicato’, poiché questo riferimento si trova in
‘Africa-Madagascar’ all’indirizzo indicato].
Nel linguaggio comune questo è simile a dire quanto segue:
La sigla AFO è collegata a Costa d'Ivorio (Ivory Coast) che è un paese nella Visitatoria AFO
Nel vocabolario chiamato ‘salesian’, disponibile a tutto il mondo all’indirizzo:
http://www.sdb.org/vocabulary/salesian#
e soprattutto ai motori di ricerca, come ad esempio Google, Yahoo, Bing (per indicarne soltanto tre),
che possono ricercare non solo parole chiave, delle quali ormai non sono molto interessati, ma possono
anche collegare AFO con altre informazioni su Ivory Coast che si trova all’indirizzo:
http://www.geonames.org/.
Possiamo creare una seconda terna (triple) creando
<http://www.sdb.org/pmwiki/pmwiki.php?n=Termbase.Africa-Madagascar>
Come ‘soggetto’ con il nuovo ‘predicato’ come segue:
<http://www.vocabulary/salesian#map>
E un nuovo ‘oggetto’:
<http://www.geonames.org/countries/CI/ivory-coast.html>.
Se mettiamo insieme le due terne, cosa che non è difficile per il computer, che può facilmente
manipolare queste stringhe, vedremo come i dati cominciano ad essere collegati. Se una ONG
Salesiana aveva qualcosa sulla sua pagina su Ivory Coast, anche questo potrebbe far parte di una terna.
Allora possiamo capire che un elemento essenziale per il Web semantico è il ‘vocabolario’ insieme a
certi ‘tag’ nella pagina html che si collegano con il ‘vocabolario’. Quanto più sono condivisi questi
‘vocabolari’, che devono essere almeno scritti nel formato leggibile dalla macchina, tanto più possiamo
condividere i dati che vogliamo condividere.
Nel Web 3.0, ossia il web semantico di ‘dati collegati’, ogni cosa ha il suo indirizzo unico,
normalmente del tipo http://ecc. Una volta che creo questo indirizzo http://www.aaa.bbb/cccc, anche se
non c’è nulla di reperibile ad una persona quando clicca questo indirizzo, la ‘cosa’ esiste, per quanto
riguarda il computer. E ogni volta che diciamo qualcosa a riguardo di quella ‘cosa’ (come ad esempio
questa cosa ‘x’ esiste in riferimento a una cosa ‘y’ con il valore ‘w’) abbiamo una frase che è una terna
('triple', in inglese) nel web semantico – e per questo possiamo collegare due, tre o più di queste terne
per creare una rete semantica ancora più grande. A questo punto una macchina può anche trarre una
conclusione se il nostro ‘vocabolario’ è organizzato come una ontologia, che è un tipo di mappa
semantica della realtà che nel nostro caso si chiama ‘Salesiana’
Dati delle nostre ONG
Una applicazione utile di questo processo potrebbe essere il modo in cui colleghiamo i dati delle nostre
ONG. Non è necessario insistere che ogni ONG usi lo stesso software, ad esempio tutti con MySql o
altro database. Invece bisogna accordarsi su un ‘vocabolario’ comune, e questo non deve essere
difficile, poi si deve inserire il codice relativo a tale ‘vocabolario’ nei loro siti. A questo punto i dati
delle nostre ONG saranno collegati tra di loro e avranno molta più forza in questo mondo complesso!
Comunque c’è sempre un divario tra ideale e realtà. Bisogan compiere alcuni passi concreti per arrivare
ai dati collegati delle ONG Salesiane: un ‘vocabolario’ appropriato (non tanto difficile), la scelta dei
dati da mettere in evidenza (anche questo non troppo difficile), il metterli in evidenza attraverso RDF
(Resource Description Framework). E’ possibile creare le pagine web con aiuto di strumenti di
progettazione RDF, e poi convertire i nostri dati strutturati in RDF. Questi strumenti sono già
disponibili, e alcuni sono per i non esperti, però il lavoro è intensivo e ostacolato dal continuo
aggiornamento delle regole per scrivere RDF. Da notare che RDF non è un linguaggio ma un quadro di
riferimento. Deve essere espresso in un linguaggio (il termine che si usa è ‘serialized’) e questo
richiede una persona competente in uno di questi linguaggi (ad esempio RDFa) in modo da essere in
grado di intervenire sulle pagine html. A meno che ci sia un software abilitato per il web semantico – ad
es. un sito costruito con Drupal 7.
Dettagli ulteriori
Abbiamo parlato di queste ‘terne’ oppure 'triples'. Cosa sono? Appartengono ad un modello
comprensibile al web di oggi che è in grado di capire gli elementi semantici e ragionare su di essi. Ad
esempio posso dire:
<la bandiera Francese><ha colore><rosso, bianco, azzurro>
Che è soggetto, predicato, oggetto. Posso anche dire <Francia> <faParteDi><Regione Europa Ovest>.
L’importante è che ‘la bandiera Francese’ e ‘Francia’ hanno ciascuno il loro indirizzo unico che si
chiama URI o Universal Resource Indicator. Se posso indicare <la bandiera Francese> oppure
<Francia> come risorse uniche posso dire altre cose su queste risorse per condividerle con il resto del
mondo. Finora siamo stati contenti di condividere solo documenti su una risorsa. Adesso condividiamo
la stessa risorsa! Il computer è in grado di fare molto di più con queste informazioni – può ragionare in
modo elementare. Se esiste un’altra risorsa con bandiera rosso, bianco, azzurro, a patto che esiste
ulteriore informazione che distinguono le diverse bandiere rosso, bianco, azzurro, nel mondo può
suggerire che è infatti la Francia che è collegata con questa risorsa. Almeno può elencare tutti i paesi
che hanno bandiere rosso, bianco, azzurro, un fatto che restringe la ricerca entro 190 paesi!
La strada è che ogni sito web (perché ogni sito web contiene dati anche se questi dati sono a volte
espressi in modo narrativo) assicuri che:
 Ogni cosa da condividere (cioè ogni dato, ogni persona, figura …) abbia il suo URI.
 Che la URI esista nella forma http:// ecc.
 Che questo URI offre informazioni vere e leggibili, anche se brevi, in un formato comprensibile
alla macchina(per questo si usa RDF) come anche alle persone (per questo si usa HTML o
Hypertext Markup Language).
 Questo URI contiene collegamenti ad altre cose (con questo comincia veramente il web
semantico)
Come si fa?
Un vocabolario scritto in html, rdf (almeno questi due formati)
Il ‘vocabolario’ offre un URI unico a qualcosa che vogliamo condividere. Se andiamo al URI
http://www.sdb.org/vocabulary/salesian#provinceCode tutto il mondo può trovare una descrizione del
significato di ‘province Code’ per un Salesiano: se un essere umano digita quel indirizzo trova un file
html che può capire, invece la macchina trova il file rdf che dice la stessa cosa.
Codice da aggiungere alla pagina html in riferimento ad AFO
Ci sono diversi modi di rappresentare questo codice a scelta del webmaster. Poiché RDF è il vero
‘nonno’ del web semantico, avrebbe senso usare RDFa, ossia RDF in attributes, per html. In questo
caso:
<h2 property="sdb:provinceCode">AFO</h2>
Questo indica che ‘province Code’ è una proprietà che è spiegata in un file che posso indicare solo con
una abbreviazione, cioè accorciato come ‘sdb’ invece di scrivere ogni volta tutto l'indirizzo (il file si
trova a http://www.sdb.org/vocabulary/salesian#). A testa della pagina che si riferisce ad AFO, o in
qualche posto su quella pagina, dobbiamo ovviamente indicare che ‘sdb’ rappresenta
http://www.sdb.org/vocabulary/salesian#. In RDFa lo facciamo scrivendo prefix= “sdb:
http://www.sdb.org/vocabulary/salesian#”. Possiamo aggiungere altre informazioni: che AFO
appartiene ad un elenco che si trova ad un altro URI (sullo stesso sito o in altro sito), e che appartiene
ad una Regione Salesiana che si chiama Africa-Madagascar, e così via.
Perché?
Al momento, se digitiamo ‘Abidjan’ in Google, ci offre collegamenti ad una mappa, alcuni alberghi,
diverse immagini e tanti altri collegamenti. Dopo aver scorso tante pagine di link è possibile che
troviamo un collegamento Salesiano ad Abidjan. Invece se abbiamo collegato i nostri dati su AFO
come spiegato sopra, Google, che a questo punto comincia a ricercare dati semantici in qualunque
posto siano stati aggiunti, anche se ci vuole tempo per trovare i nostri dati, troverò i nostri dati e magari
tra i collegamenti troveremo anche altri collegamenti ad altr parti di AFO perché siamo noi che
abbiamo collegato tra loro tali dati.
All’inizio, in questo intero universo di dati collegati, non possiamo aspettare che i nostri dati siano
particolarmente importanti neanche che saranno i primi ad essere ricercati! Man mano però, anche i
nostri dati trovano i posti giusti.
Entro dicembre 2012, è previsto che 80% dei siti pubblici dei governi in tutto il mondo avranno
aggiunto tali elementi cioè dati in RDFa o altro metodo – perché ci sono altri metodi sempre con lo
stesso obiettivo. A questo punto possiamo dire sicuramente che pochissimi siti della Chiesa hanno
imboccato questa strada. Ma se si dice (e lo dicono!) che entro il 2017, la maggior parte dei siti web
avranno o devono avere questo livello di informazione semantica, allora mancano pochi anni per
cominciare questo lavoro!