Presentazione di PowerPoint

annuncio pubblicitario
Ranking e Crawling: esercizi
Ida Mele
Sapienza Università di Roma
Esericizi
Calcolo di PageRank: esercizio
Calcolare il PageRank per il grafo WikiIT e per il grafo WikiPT
Ad esempio:
- java it.unimi.dsi.law.rank.PageRankPowerMethod WikiIT
WikiIT_PR
- java PrintRanks WikiIT_PR.ranks
Applicare gli altri metodi supportati per il calcolo di PageRank.
N.B. I grafi sono già nel formato webgraph e sono disponibili sul
sito.
Esericizi
Pagina 1
Calcolo di HITS: esercizio opzionale (1)
Implementare HITS in Java.
Si calcola per ogni pagina x l'hub score h(x) e l'authority
score a(x).
Implementazione iterativa:
h(x) = ∑ x → y a(y)
a(x) = ∑ y → x h(y)
Esericizi
Pagina 2
Calcolo di HITS: esercizio opzionale (2)
Data la pagina è necessario estrarre gli in-link.
Esermpio: ho delle pagine Web (chiamate X, Y, Z) con dei link ad altre
pagine (che chiamiamo A, B, C).
A
B
C
A X
A X
B X
A Y
C X
A Z
C
A Y
B X
Y
C Y
C X
A Z
C Y
A
X
A
A: X, Y, Z
B: X
C: X, Y
Z
Esericizi
Pagina 3
Calcolo di HITS: esercizio opzionale (3)
Per prima cosa si crea un parser per estrarre da ogni pagina
Web i link.


Quindi si fa una lista in cui per ogni riga viene riportata la coppia:
<pagina a cui viene fatto riferimento, pagina che fa riferimento>
• Esempio: <A, X> oppure <C,Y> ecc, ecc.
• A questo punto ordiniamo la lista in modo da avere per ogni
pagina gli in-link.
Esericizi
Pagina 4
Crawling e ranking: esercizio
Ripetere l’esercitazione sul dominio del DIS o su un dominio
a piacere, utilizzando il file ex-nutch.sh disponibile sul sito.

Utilizzare il grafo ottenuto per il calcolo del PageRank.

Ordinare gli score in modo decrescente.

Rappresentare graficamente la distribuzione degli score.

Esericizi
Pagina 5
Scarica