'Linked Data', Semantic Web, Salesiani, ONG INTRODUZIONE Ecco una piccola prova per un sito web. Si chiama la prova di 5 stelle: Ci sono dati disponibili sulle pagine del sito – in qualsiasi forma Ci sono dati strutturati (p.e. una tabella invece di un'immagine scannerizzata di una tabella) I dati strutturati sono di un formato aperto (p.e. .csv) invece di un formato proprietario (p.e. excel spreadhseet .xsl). Ogni cosa è stat evidenziato con un URL (i.e. http:// etc) I vostri dati sono stati collegati con altri dati (soprattutto dati trovati su altri siti salesiani). Come avete fatto? La stragrande maggioranza di siti web arrivano a 2 stelle! Il Web potrebbe essere più largamente conosciuto per il fatto che contiene molti documenti – aprite www.sdb.org per esempio, o Salesian Digital Library (SDL), e si aspetta di essere in grado di leggere o scaricare quasi tutti i documenti salesiani in una varietà di lingue. Ma proprio tale sito contiene una quantità enorme di dati che non sono scaricabili. Andate alla pagina 'Regione' e cliccate sulla mappa qui presente, per esempio Africa-Madagascar, e si arriva a una pagina che è essenzialmente costituita da dati, tra cui una mappa di Google, un elenco di codici delle ispettorie, informazioni su ogni ispettoria. Ma attenzione - questi dati sono incorporati in una pagina web! Un essere umano può leggerli e darli un senso, avendo già alcune conoscenze implicite circa i dati - il computer non può. Alle sue spalle si trova un database, ma non si vede se non avete accesso ad esso. La pagina non mostra un modello centralizzato di dati (il database può farlo - si tratta di un database MySQL). I dati sulla pagina 'Africa-Madagascar' sono strutturati in una certa forma, salvo che solo gli esseri umani possono comprendere la struttura. Immaginate, poi, cosa potrebbe accadere se un computer potesse comprendere la struttura della pagina e collegare a una pagina da qualche altra parte che può avere ulteriori informazioni strutturate che si possono capire nello stesso modo, anche se potrebbe essere strutturato in modo diverso. In pratica questo significa che senza l'accesso ai due database diversi, che possono di per sé essere strutturati in modo molto diverso, un computer potrebbe comprendere due pagine web contenenti dati da tali banche dati, e collegarli tra loro, così da costruirne un altro. Immaginate, poi, se ogni pagina di 'dati' salesiani fosse comprensibile da un computer - e il computer, via web, potesse immediatamente collegarle tutte e far loro costruirne un’altra! È questa la visione spiegata qui. In realtà, la pagina che state guardando, se siete veramente andati alla pagina Africa-Madagascar, ha avuto alcuni contrassegni semantici (semantic tagging) aggiunti al suo interno, e potreste vederli cercando nella visualizzazione 'codice sorgente'. Questo significa che il computer ora sa cosa fare con i dati in quella pagina. Il tagging semantico è potente e può essere uno dei pochi esempi di una tecnologia che è completamente invisibile per l'utente, ma 'al lavoro' lo stesso. In termini biblici, è come lo spruzzo del lievito nella farina! Allora, il sito web come una rete di documenti rimane solo quella – una rete di documenti. Ma oggi ci sono tantissimi dati contenuti nei nostri siti – sia nei stessi documenti che nelle pagine html che non sono documenti. Bisogna un Web di dati, una rete di dati. La questione di basi di dati I governi e le grandi aziende contengono i loro dati un uno (o più) database. Una pagina web richiama certi dati da quel database. La Congregazione salesiana deve considerarsi al livello di un governo o un'azienda data la sua grandezza, le sue attività, la sua diffusione nel mondo. Comunque in realtà non esiste un singolo database, e magari la Congregazione ha già un cammino da percorrere al riguardo al suo livello centrale. Ci sono due database, uno di sdb.org l'altro di ANS che contengono dati che appoggiano le necessità di questi due siti, ma non contengono tutti i dati che a volte anche le nostre strutture chiedono. Non tutto è perduto, però. La Direzione General sta per aggiornare sia il database che le politiche al riguardo, ma in realtà ci sono decine di database salesiani – tra cui quelli della Direzioni Generale, delle ispettorie, delle ONG salesiane.... Dunque la soluzione è di adottare un approccio che consente collegamenti tra alcuni dati in tutti questi database. È possibile. Dati Collegati Vi sono attualmente alcuni termini in uso comune in questo campo: dati collegati, web semantico, web 3.0. Potrebbero essere modi di dire la stessa cosa, ma non esattamente nello stesso modo. Sono modi diversi di guardare la stessa realtà: la visione originale di Tim Berners-Lee, inventore del WWW. Voleva una rete veramente legata in cui le persone e le cose (questa ultima voce è importante) possono essere tra loro collegati, ossia, il web semantico. Il Web 2.0 ha visto infinite connessioni tra la gente. Il suo successo è dovuto soprattutto a blog, wiki, poi le reti sociali, che sono estensioni di tecnologie semplici per l'utente da utilizzare. Ma il Web 2.0 non è mai stato in grado di collegare efficacemente i dati. Perché? Poiché i dati sono spesso incorporati in un blocco di testo, o almeno posto su una pagina (web) HTML: se scriviamo 'AFO' in una frase (AFO è un elemento di dati trovati tra altre 92 ispettorie salesiane nel nostro database di sdb.org), un salesiano sa che si riferisce ad Africa Occidentale Francofona, e che ci sono alcune persone che conosciamo che vivono in quella Visitatoria, o che si tratta di un scenario politico delicato, e così via .... Gli stessi dati potrebbero essere in una tabella di dati - ma il computer non conosce la differenza tra una frase e una tabella di dati, e certamente non sa come collegare i dati relativi ad AFO con altri dati di un paese che fa parte di questa Visitatoria, ad esempio Camerun; dati che sarebbero disponibili altrove sul web. E per dire la verità, il computer non ha idea neppure che cosa intendiamo per 'ispettoria', o 'visitatoria'..... Un essere umano può capire il contenuto implicito, cosa significa tutto un computer vede solo che si tratta di una pagina html. Non ha comprensione implicita Dobbiamo aiutare le macchine a capire il Web in modo che possano aiutarci a capire 'cose'. I dati sono queste 'cose', non sono persone, anche se possono essere informazioni su persone, come è una foto, e spesso non vi è alcun legame tra una cosa e un'altra. Sono semplicemente .... dati: un nome, una figura, una 'cosa'! Naturalmente, nessun computer mai 'capisce' nulla! Ma possiamo inserire informazioni significative in modo che un computer possa manipolarle a scopi utili. Soluzione? In realtà la soluzione è piuttosto semplice, a un certo livello. Un computer può fare qualcosa con: <http://www.sdb.org/vocabulary/salesian#provinceCode>, specialmente se questo stesso indirizzo (è un indirizzo, un indirizzo Web conosciuto anche come URL o più genericamente come URI), contiene una definizione di una sigla ispettoriale (una sigla con tre lettere, ad esempio). Se uno dei valori di provinceCode è AFO, e se parliamo di AFO in diverse parti del sito, il computer può collegare il vocabolario che descrive la sigla ispettoriale con un tag di questo tipo: <p property=“provinceCode” content=“Africa francofona occidentale” lang=“it”>AFO</p>. Se diamo anche altre informazioni simili su Costa d'Ivorio (Ivory Coast in inglese) in questo modo: <http//www.sdb.org/vocabulary/salesian#inCountry> Dove Ivory Coast è riconosciuto come un paese nell’elenco dei paesi che si trova all’indirizzo: <http://www.sdb.org/pmwiki/pmwiki.php?n=Termbase.Africa-Madagascar> E anche in: <http://www.geonames.org/>, Poi possiamo scrivere una ‘frase’, nella forma http così: <http://www.sdb.org/vocabulary/salesian#ProvinceCode> [questo si può indicare come il ‘soggetto’, AFO] <http//www.sdb.org/vocabulary/salesian#inCountry> [questo si può indicare come ‘predicato’ ‘country’, che vuol dire che un paese con questo nome fa parte di AFO] <http://www.sdb.org/pmwiki/pmwiki.php?n=Termbase.Africa-Madagascar> [si può indicare questo come ‘oggetto’ o il ‘valore del predicato’, poiché questo riferimento si trova in ‘Africa-Madagascar’ all’indirizzo indicato]. Nel linguaggio comune questo è simile a dire quanto segue: La sigla AFO è collegata a Costa d'Ivorio (Ivory Coast) che è un paese nella Visitatoria AFO Nel vocabolario chiamato ‘salesian’, disponibile a tutto il mondo all’indirizzo: http://www.sdb.org/vocabulary/salesian# e soprattutto ai motori di ricerca, come ad esempio Google, Yahoo, Bing (per indicarne soltanto tre), che possono ricercare non solo parole chiave, delle quali ormai non sono molto interessati, ma possono anche collegare AFO con altre informazioni su Ivory Coast che si trova all’indirizzo: http://www.geonames.org/. Possiamo creare una seconda terna (triple) creando <http://www.sdb.org/pmwiki/pmwiki.php?n=Termbase.Africa-Madagascar> Come ‘soggetto’ con il nuovo ‘predicato’ come segue: <http://www.vocabulary/salesian#map> E un nuovo ‘oggetto’: <http://www.geonames.org/countries/CI/ivory-coast.html>. Se mettiamo insieme le due terne, cosa che non è difficile per il computer, che può facilmente manipolare queste stringhe, vedremo come i dati cominciano ad essere collegati. Se una ONG Salesiana aveva qualcosa sulla sua pagina su Ivory Coast, anche questo potrebbe far parte di una terna. Allora possiamo capire che un elemento essenziale per il Web semantico è il ‘vocabolario’ insieme a certi ‘tag’ nella pagina html che si collegano con il ‘vocabolario’. Quanto più sono condivisi questi ‘vocabolari’, che devono essere almeno scritti nel formato leggibile dalla macchina, tanto più possiamo condividere i dati che vogliamo condividere. Nel Web 3.0, ossia il web semantico di ‘dati collegati’, ogni cosa ha il suo indirizzo unico, normalmente del tipo http://ecc. Una volta che creo questo indirizzo http://www.aaa.bbb/cccc, anche se non c’è nulla di reperibile ad una persona quando clicca questo indirizzo, la ‘cosa’ esiste, per quanto riguarda il computer. E ogni volta che diciamo qualcosa a riguardo di quella ‘cosa’ (come ad esempio questa cosa ‘x’ esiste in riferimento a una cosa ‘y’ con il valore ‘w’) abbiamo una frase che è una terna ('triple', in inglese) nel web semantico – e per questo possiamo collegare due, tre o più di queste terne per creare una rete semantica ancora più grande. A questo punto una macchina può anche trarre una conclusione se il nostro ‘vocabolario’ è organizzato come una ontologia, che è un tipo di mappa semantica della realtà che nel nostro caso si chiama ‘Salesiana’ Dati delle nostre ONG Una applicazione utile di questo processo potrebbe essere il modo in cui colleghiamo i dati delle nostre ONG. Non è necessario insistere che ogni ONG usi lo stesso software, ad esempio tutti con MySql o altro database. Invece bisogna accordarsi su un ‘vocabolario’ comune, e questo non deve essere difficile, poi si deve inserire il codice relativo a tale ‘vocabolario’ nei loro siti. A questo punto i dati delle nostre ONG saranno collegati tra di loro e avranno molta più forza in questo mondo complesso! Comunque c’è sempre un divario tra ideale e realtà. Bisogan compiere alcuni passi concreti per arrivare ai dati collegati delle ONG Salesiane: un ‘vocabolario’ appropriato (non tanto difficile), la scelta dei dati da mettere in evidenza (anche questo non troppo difficile), il metterli in evidenza attraverso RDF (Resource Description Framework). E’ possibile creare le pagine web con aiuto di strumenti di progettazione RDF, e poi convertire i nostri dati strutturati in RDF. Questi strumenti sono già disponibili, e alcuni sono per i non esperti, però il lavoro è intensivo e ostacolato dal continuo aggiornamento delle regole per scrivere RDF. Da notare che RDF non è un linguaggio ma un quadro di riferimento. Deve essere espresso in un linguaggio (il termine che si usa è ‘serialized’) e questo richiede una persona competente in uno di questi linguaggi (ad esempio RDFa) in modo da essere in grado di intervenire sulle pagine html. A meno che ci sia un software abilitato per il web semantico – ad es. un sito costruito con Drupal 7. Dettagli ulteriori Abbiamo parlato di queste ‘terne’ oppure 'triples'. Cosa sono? Appartengono ad un modello comprensibile al web di oggi che è in grado di capire gli elementi semantici e ragionare su di essi. Ad esempio posso dire: <la bandiera Francese><ha colore><rosso, bianco, azzurro> Che è soggetto, predicato, oggetto. Posso anche dire <Francia> <faParteDi><Regione Europa Ovest>. L’importante è che ‘la bandiera Francese’ e ‘Francia’ hanno ciascuno il loro indirizzo unico che si chiama URI o Universal Resource Indicator. Se posso indicare <la bandiera Francese> oppure <Francia> come risorse uniche posso dire altre cose su queste risorse per condividerle con il resto del mondo. Finora siamo stati contenti di condividere solo documenti su una risorsa. Adesso condividiamo la stessa risorsa! Il computer è in grado di fare molto di più con queste informazioni – può ragionare in modo elementare. Se esiste un’altra risorsa con bandiera rosso, bianco, azzurro, a patto che esiste ulteriore informazione che distinguono le diverse bandiere rosso, bianco, azzurro, nel mondo può suggerire che è infatti la Francia che è collegata con questa risorsa. Almeno può elencare tutti i paesi che hanno bandiere rosso, bianco, azzurro, un fatto che restringe la ricerca entro 190 paesi! La strada è che ogni sito web (perché ogni sito web contiene dati anche se questi dati sono a volte espressi in modo narrativo) assicuri che: Ogni cosa da condividere (cioè ogni dato, ogni persona, figura …) abbia il suo URI. Che la URI esista nella forma http:// ecc. Che questo URI offre informazioni vere e leggibili, anche se brevi, in un formato comprensibile alla macchina(per questo si usa RDF) come anche alle persone (per questo si usa HTML o Hypertext Markup Language). Questo URI contiene collegamenti ad altre cose (con questo comincia veramente il web semantico) Come si fa? Un vocabolario scritto in html, rdf (almeno questi due formati) Il ‘vocabolario’ offre un URI unico a qualcosa che vogliamo condividere. Se andiamo al URI http://www.sdb.org/vocabulary/salesian#provinceCode tutto il mondo può trovare una descrizione del significato di ‘province Code’ per un Salesiano: se un essere umano digita quel indirizzo trova un file html che può capire, invece la macchina trova il file rdf che dice la stessa cosa. Codice da aggiungere alla pagina html in riferimento ad AFO Ci sono diversi modi di rappresentare questo codice a scelta del webmaster. Poiché RDF è il vero ‘nonno’ del web semantico, avrebbe senso usare RDFa, ossia RDF in attributes, per html. In questo caso: <h2 property="sdb:provinceCode">AFO</h2> Questo indica che ‘province Code’ è una proprietà che è spiegata in un file che posso indicare solo con una abbreviazione, cioè accorciato come ‘sdb’ invece di scrivere ogni volta tutto l'indirizzo (il file si trova a http://www.sdb.org/vocabulary/salesian#). A testa della pagina che si riferisce ad AFO, o in qualche posto su quella pagina, dobbiamo ovviamente indicare che ‘sdb’ rappresenta http://www.sdb.org/vocabulary/salesian#. In RDFa lo facciamo scrivendo prefix= “sdb: http://www.sdb.org/vocabulary/salesian#”. Possiamo aggiungere altre informazioni: che AFO appartiene ad un elenco che si trova ad un altro URI (sullo stesso sito o in altro sito), e che appartiene ad una Regione Salesiana che si chiama Africa-Madagascar, e così via. Perché? Al momento, se digitiamo ‘Abidjan’ in Google, ci offre collegamenti ad una mappa, alcuni alberghi, diverse immagini e tanti altri collegamenti. Dopo aver scorso tante pagine di link è possibile che troviamo un collegamento Salesiano ad Abidjan. Invece se abbiamo collegato i nostri dati su AFO come spiegato sopra, Google, che a questo punto comincia a ricercare dati semantici in qualunque posto siano stati aggiunti, anche se ci vuole tempo per trovare i nostri dati, troverò i nostri dati e magari tra i collegamenti troveremo anche altri collegamenti ad altr parti di AFO perché siamo noi che abbiamo collegato tra loro tali dati. All’inizio, in questo intero universo di dati collegati, non possiamo aspettare che i nostri dati siano particolarmente importanti neanche che saranno i primi ad essere ricercati! Man mano però, anche i nostri dati trovano i posti giusti. Entro dicembre 2012, è previsto che 80% dei siti pubblici dei governi in tutto il mondo avranno aggiunto tali elementi cioè dati in RDFa o altro metodo – perché ci sono altri metodi sempre con lo stesso obiettivo. A questo punto possiamo dire sicuramente che pochissimi siti della Chiesa hanno imboccato questa strada. Ma se si dice (e lo dicono!) che entro il 2017, la maggior parte dei siti web avranno o devono avere questo livello di informazione semantica, allora mancano pochi anni per cominciare questo lavoro!