04_Il Web - Politecnico di Torino

Il World Wide Web
Il Web
Claudio Fornaro
ver. 1.3
1
La nascita del Web
Il World Wide Web (ragnatela di
estensione mondiale) o “WWW” o “Web”
è un sistema di documenti ipertestuali
collegati tra loro attraverso Internet
Attraverso un Web browser l’utente
visualizza pagine Web contenenti testo,
immagini e altro contenuto multimediale,
spostandosi dall’una all’altra mediante
hyperlink.
2
Le idee di base del Web
Creato verso il 1990 da Tim Berners-Lee
(UK) e Robert Cailliau (BE) del CERN di
Ginevra (CH)
Tim Berners-Lee concepì il Web da un
punto di vista semantico: il contenuto
stesso deve essere auto-descritto
mediante tecniche di mark-up
3
Il World Wide Web si basa sulla
combinazione di 4 idee:
L’ipertesto:
formato di informazione che, da una parte
del documento, permette di spostarsi ad
un’altra parte del documento stesso o ad
un altro documento per mezzo di
collegamenti interni al testo stesso
denominati “hyperlink” (o più
comunemente link)
4
Le idee di base del Web
Le idee di base del Web
seguito:
Il Resource Identifier:
identificatore univoco utilizzato per
localizzare sulla rete una particolare risorsa
(un file, un documento, altro), viene
comunemente chiamato URL o URI,
benché ci siano sottili differenze tra i due
termini
seguito:
Il modello di calcolo client-server:
sistema in cui un programma client chiede
ad un programma server di fornirgli risorse
o servizi, ad esempio dati e file
5
Le idee di base del Web
Struttura di base
seguito:
6
Il linguaggio di Markup:
opportuni codici inframmezzati al testo ne
indicano la struttura, il significato
(semantica), o l’aspetto grafico (linguaggio
HTML)
Un programma client genericamente
detto user agent richiede risorse
identificate dal loro URL (quali pagine
Web e altri file) a predisposti server
Web
Se lo user agent ha interazione con
l’utente e visualizza la risorsa sullo
schermo dell’utente, viene chiamato
browser Web
7
8
Struttura di base
Struttura di base
L’utente può quindi seguire i link
presenti in ciascuna pagina per
raggiungere le locazioni identificate
dagli stessi link
E’ inoltre possibile mandare
informazioni al server Web (ad esempio
compilando i web forms) affinché siano
memorizzati o elaborati
9
Funzionamento del Web
Le pagine Web sono generalmente
organizzate in collezioni di materiale
tematico su nodi della rete Internet
detti siti Web
L’azione del seguire link da un sito Web
ad un altro viene talvolta detto
“navigazione” (“surfing”)
Nel linguaggio comune, spesso Internet
e il Web sono considerati sinonimi
10
Funzionamento del Web
La visualizzazione di una pagina
normalmente inizia con l’indicazione
dell’utente dell’URL a cui accedere, o
scrivendo l’URL corrispondente alla
pagina o seguendo un link associato ad
essa
11
Il primo passaggio, trasparente per
l’utente, consiste nell’accedere ai server
del Domain Name System (DNS) per
determinare l’indirizzo IP numerico
corrispondente al nome del server Web
indicato nell’URL
Il browser quindi stabilisce una
connessione TCP tra sé e il server Web
12
Funzionamento del Web
Funzionamento del Web
Il secondo passaggio consiste nella
trasmissione da parte del client al server
Web della richiesta della risorsa presente
sul server stesso e specificata nell’URL
Nel caso di una tipica pagina Web,
questa viene mandata dal server al
browser che la analizza e richiede gli
altri file che completano quella pagina
(immagini, etc.)
Queste richieste addizionali possono
essere connessioni indipendenti fatte
dal browser al server (e non dovrebbero
essere conteggiate nel numero di
accessi al server)
Ottenuti gli elementi che costituiscono
la pagina, il browser disegna la pagina
seguendo tenendo conto di tutte le
informazioni scaricate (codice HTML,
direttive CSS, altro)
13
La cache
14
La cache
Quando si accede dopo un breve tempo
alla stessa pagina Web, in genere questa
non viene scaricata nuovamente dal
server, ma viene usata una copia
memorizzata sul proprio disco
Il browser automaticamente (in modo
nascosto, “cache”=“nascondere”) chiede
al server Web se la pagina è stata
modificata, se non lo è stata viene
utilizzata la copia memorizzata (in cache)
15
La funzionalità della cache permette di
ridurre notevolmente il traffico di rete
verso Internet
Il termine di validità (expiration) può
essere indipendente per ciascuna
risorsa (HTML, immagine, stylesheet,
JavaScript, etc.)
16
La cache
La cache
La funzionalità di cache può essere
effettuata da calcolatori appositi detti
proxy a beneficio di tutti i calcolatori di
una LAN
Anche alcuni motori di ricerca (search
engines) come Google o Yahoo! salvano
in enormi cache il contenuto dei siti
Web che indicizzano
E’ il server Web che è in grado di
stabilire se una risorsa è stata aggiornata
E’ possibile inserire nelle pagine Web
opportune direttive per richiedere al
browser e ai proxy di non salvare una
copia cache della pagina (es. le pagine di
siti di Internet banking e news)
17
Corruttibilità dei link
18
Corruttibilità dei link
Le risorse sul Web sono soggette nel
tempo a modifiche, cancellazioni,
rilocazioni
Alcuni progetti hanno come scopo
quello di memorizzare “istantanee” del
contenuto del Web in giganteschi
archivi, tra questi l’Internet Archive (dal
1996)
19
La corruttibilità è dovuta a:
i link referenziano risorse mantenute da
entità indipendenti
la dimensione del Web rende impossibile
monitorare tutti i link in real time
non è prevista alcuna notifica quando una
pagina viene rimossa o ridenominata
20
Layout del documento
Layout del documento
Le pagine HTML possono presentarsi in
modi diversi a seconda del dispositivo
utilizzato per la fruizione
Quando è necessario un layout simile a
quello che si avrebbe su carta, il
formato HTML non è adeguato, il
formato più utilizzato in questi casi è il
Portable Document Format (PDF) della
Adobe Systems
Il formato PDF viene utilizzato per
rappresentare documenti bidimensionali
in modo fisso indipendente dal
dispositivo e dalla risoluzione
Ogni documento PDF contiene la
descrizione completa del documento
mediante: testo, font, immagini raster e
vettoriali
21
Layout del documento
22
Motori di ricerca
Nel file PDF non vengono memorizzati
dettagli hardware e software del
sistema utilizzato per crearli
La visualizzazione dei file PDF è
indipendente dai dettagli hardware e
software del sistema utilizzato (purché
anche i font utilizzati siano stati inclusi
nel documento PDF)
23
Applicazioni in grado di ricercare
informazioni presenti in un calcolatore,
in una LAN o nel Web
Le ricerche si basano sulla soddisfazione
di alcuni criteri di ricerca espressi
dall’utente (tipicamente parole chiave)
I più comuni motori di ricerca
indicizzano siti Web, altri anche
newsgroup, database pubblici, etc.
24
Motori di ricerca
Web Directory
La lista dei risultati (pagine che
contengono quelle parole chiave) sono
ordinate per importanza con algoritmi
segreti che hanno fatto la fortuna dei
loro inventori (Google)
I motori di ricerca indicizzano
frequentemente il contenuto dei siti
Web per poter operare velocemente e
fornire risultati non obsoleti
E’ un indice di siti Web organizzato in
categorie e sottocategorie in base al
contenuto
Non è un motore di ricerca (sebbene lo
stesso sito possa fornire entrambi i
servizi, es. Yahoo!) e la classificazione
non è automatica ma manuale
25
Web Syndication
26
Web Syndication
Vendita a terzi di spazio (pagine o parti
di esse) su un sito Web
In genere questo termine viene
utilizzato in riferimento ai Web Feed
dove un sito di terze parti pubblica ad
esempio un sommario degli ultimi
aggiornamenti (ad es. le ultime notizie)
27
La fornitura di contenuto avviene
secondo standard tecnologici (in genere
viene usato il formato XML)
Vantaggi per le due parti:
Sito ospitante: offerta di maggiore
contenuto, aggiornamento senza
intervento proprio
Sito ospite: distribuzione su molti più siti
del proprio contenuto senza sforzo
aggiuntivo e adattamenti al singolo
28
ospitante
Web Syndication
Web Feed
Il gradimento degli utilizzatori deriva
dalla disponibilità delle informazioni
senza la necessità di fornire dati
personali o di sottoscrivere il servizio
I due metodi principali sono gli stessi
dei Web Feed: RSS e Atom
29
Web Feed
Forma di Web Syndication a richiesta
dove il sito ospitante viene sostituito da
un’applicazione dell’utente
L’utente utilizza un aggregatore (feed
reader) che, se necessario, registra
l’utente presso il fornitore di Feed
Gli aggregatori possono essere
programmi indipendenti o estensioni dei
browser o applicazioni three-tier
30
Web Feed
L’aggregatore consulta i server dei Feed
per verificare la presenza di nuovo
contenuto e ne informa l’utente o
scarica direttamente il feed per la
visualizzazione
La verifica di nuovo contenuto avviene
periodicamente o su richiesta
dell’utente
31
Vantaggi dei Web Feed sui siti Web:
Gli utenti posso essere notificati
automaticamente della presenza di nuovo
contenuto senza interazione esplicita
Le informazioni presentate tramite
l’aggregatore hanno aspetto uniforme
indipendentemente dal formato presente
sui siti di origine
I file multimediali possono essere scaricati
automaticamente
32
Web Feed
Il Web semantico
Vantaggi dei Web Feed sulla posta eln:
La sottoscrizione di un Feed non richiede in
genere che l’utente debba fornire il suo
indirizzo e-mail (minor esposizione a spam,
virus, phishing, appropriazione di identità)
Per attivare e cancellare la sottoscrizione
ad un Feed non è necessario mandare
richieste esplicite al server, ma è sufficiente
agire sull’aggregatore
Evoluzione del World Wide Web
finalizzata all’elaborazione automatica
dei contenuti (attualmente i contenuti
sono solo fruibili e comprensibili
dall’utente umano)
Questo permette ai browser o altri
programmi di cercare ed elaborare (ad
es. combinare) i risultati
33
Il Web semantico
Il Web semantico
Il Web semantico si basa su:
un modello di dati detto Resource
Description Framework (RDF)
diversi formati di scambio dati
linguaggi di descrizione dei dati che
facilitano la descrizione formale dei concetti,
dei termini e delle relazioni all’interno di un
determinato ambito:
RDF Schema (RDFS)
Web Ontology Language (OWL)
34
35
Esempio: “cerca i prezzi dei televisori
HD di almeno 40 pollici nei negozi di
Torino aperti il giovedì fino alle 20”
Attualmente una ricerca come questa
richiederebbe che il motore di ricerca
conoscesse la struttura di ciascuno dei
siti Web da cui recuperare i dati
Lo standard RDF descrive le
informazioni in forma appropriata per
essere elaborate automaticamente 36
Il Web 2.0
Evoluzione del World Wide Web rispetto
alla condizione precedente
Insieme di tutte quelle applicazioni
online che permettono uno spiccato
livello di interazione tra il sito e l'utente
attuato con brevi connessioni (blog,
forum, chat, wiki, YouTube, Google,
ecc.).
37