Ranking e Crawling: esercizi Ida Mele Sapienza Università di Roma Esericizi Calcolo di PageRank: esercizio Calcolare il PageRank per il grafo WikiIT e per il grafo WikiPT Ad esempio: - java it.unimi.dsi.law.rank.PageRankPowerMethod WikiIT WikiIT_PR - java PrintRanks WikiIT_PR.ranks Applicare gli altri metodi supportati per il calcolo di PageRank. N.B. I grafi sono già nel formato webgraph e sono disponibili sul sito. Esericizi Pagina 1 Calcolo di HITS: esercizio opzionale (1) Implementare HITS in Java. Si calcola per ogni pagina x l'hub score h(x) e l'authority score a(x). Implementazione iterativa: h(x) = ∑ x → y a(y) a(x) = ∑ y → x h(y) Esericizi Pagina 2 Calcolo di HITS: esercizio opzionale (2) Data la pagina è necessario estrarre gli in-link. Esermpio: ho delle pagine Web (chiamate X, Y, Z) con dei link ad altre pagine (che chiamiamo A, B, C). A B C A X A X B X A Y C X A Z C A Y B X Y C Y C X A Z C Y A X A A: X, Y, Z B: X C: X, Y Z Esericizi Pagina 3 Calcolo di HITS: esercizio opzionale (3) Per prima cosa si crea un parser per estrarre da ogni pagina Web i link. Quindi si fa una lista in cui per ogni riga viene riportata la coppia: <pagina a cui viene fatto riferimento, pagina che fa riferimento> • Esempio: <A, X> oppure <C,Y> ecc, ecc. • A questo punto ordiniamo la lista in modo da avere per ogni pagina gli in-link. Esericizi Pagina 4 Crawling e ranking: esercizio Ripetere l’esercitazione sul dominio del DIS o su un dominio a piacere, utilizzando il file ex-nutch.sh disponibile sul sito. Utilizzare il grafo ottenuto per il calcolo del PageRank. Ordinare gli score in modo decrescente. Rappresentare graficamente la distribuzione degli score. Esericizi Pagina 5