RETI 4
2-mode networks
Collaboration networks
•
•
•
•
•
•
•
Definizione
Esempi
Proiezione
Statistica
Coesione
Utilizzo di Pajek
alcuni studi sulle reti bipartite
Boards/Directors
recommendation system
Definizione
Esempi reali
-Scientific collaboration (authoring network)
Collaboration acts=papers;
Actors= authors
-Corporate board and director network
Collaboration acts=board (consigli d’amministrazione)
Actors= directors
-Occurrence networks
Collaboration acts=sentences of the book the words appear;
Actors= words occurring in a book
-Peer-to-peer exchange networks
Collaboration acts=data the peers use
Actors= peers
Proiezione 2-mode 1-mode network


http://toreopsahl.com/2009/05/01/projecting-two-modenetworks-onto-weighted-one-mode-networks/
“This diagram illustrates a binary twomode network where the colors
represent the node set to which a node
belongs”.
Le reti 2-mode vengono proiettate per
poter usare le misure delle reti 1-mode
“weighted one-mode network by defining the
weights as the number of co-occurrences. “
“Newman (2001) extended this procedure while working with scientific collaboration
networks. He argued that the social bonds among scientist collaborating with
few others on a paper were stronger than the bonds among scientists collaborating
with many on a paper. He proposed to discount for the size of the collaboration by
defining the weights among the nodes using the following formula:
where Np is the number of authors on paper p “
(e.g., the number of blue nodes connected to the red node ).
A-B connection weight
1/(2-1)+1/(3-1)=1+1/2=3/2=1.5
Esempi: donne (W)/eventi (E)
(directors/boad, readers/magazines)
w1
E1
w1
w2
w3
E2
1
1
1
E3
1
0
1
0
0
1
B
w2
E1
E2
w3
E3
Proiezione su W (righe)
A=B BT
w1
w1
w2
w3
w2
2
1
2
w1
w3
1
1
1
2
1
3
w2
w3
w1
2
E1
E2
E3
1
1
w2
1
2
w3 3
Potrebbe essere una «multiple line»
Valore delle linee= n° eventi in comune
Elementi diagonali= n° totale di eventi per ogni donna
Proiezione su E
AT=BTB
Valori delle linee= n° di donne che partecipano ad entrambi gli eventi
Elementi diagonali: (loops)= n° di donne per ogni evento
Problemi con la proiezione
Con la proiezione si possono perdere o aggiungere proprietà alla rete
Normalizzazione della proiezione con Pajek:
Esempio: donne /eventi (giornali/lettori)
w1
2
1
Geoij 
1 w2
1
3
2
aij
aii a jj
w1
w3 correlazione
1
2
2
 0.8
23
 aij
a ii  a jj

MINDIRij   aii
0 altrimenti

1
1
w1
1
 0.7
2 1
2
2
2
1 w2
w2
1
 0.6
3 1
3
w3
1
1
w3 Dipendenza
Essere influenzati da..
3
Osservazioni
1. GEO è una misura della connettività cioè della correlazione tra
i nodi
1. MINDIR trasforma la rete in rete diretta (orientata). Gli archi
vanno dal nodo con peso minore a nodi con peso maggiore.
3. MINDIR: Gli archi vanno dal giornale con meno lettori a
quello con più lettori
4. MINDIR: Il valore degli archi corrisponde alla percentuale di
lettori del primo giornale che hanno letto anche il secondo
Statistica di base 1-mode,
G  (V, E), V  insieme dei nodi, E  insieme dei link
vicini di v N ( v )  u V , (u, v )  E 
E  V V
grado di v : d 0 ( v )  N ( v )
dimensione di G n  V ; numero di lati m  E
2m
grado medio k 
;
n
2m
2 * nlati _ esistenti
densità δ(G) 

n(n  1)
nlati _ possibli
E' la probabilit à che esista un lato tra due nodi
distanza media del grafo  d(G) media delle distanze minime
Diametro  massima delle distanze minime
La statistica di base si applica sia alle rete intera che alle sue proiezioni
Statistica avanzata delle reti 1-mode
Sia applica in genere solo alle proiezioni
1. Degree distribution= per tutti gli interi i è la frazione di nodi di
grado i, ovvero la probabilità che un vertice scelto a caso abbia
grado i. per ogni intero i.
2. Misure di centrality:
• Clustering coefficient= probabilità che due nodi siano collegati
tra loro avendo alcuni vicini in comune= probabilità che 2 intorni
di un nodo qualsiasi siano legati tra di loro.
• Degree centrality
• Betweenness
…
3. Assortatività= correlazione tra i gradi (grado medio dei nodi di
grado i)
4. Coesione
Coesione:
Riprendiamo alcune misure di coesione già viste….
cliques
Tutti con tutti
Si possono sovrapporre
k core
Ogni nodo nel gruppo è
connesso con k nel gruppo
p-cliques
Frequenza dei link di ogni nodo
del gruppo=p
m-slices
• Si trasforma la rete in una unimodale
• I pesi degli archi corrispondono ad esempio al numero
di eventi (donne, etc.) in comune
• m-slice: è il sottografo massimo che contiene le linee
con una molteplicità ≥m
A=
1
1
1
1
0
1
1
1
1
0
1
1
2
2
0
1
1
2
4
1
0
0
0
1
1
1-slice
1
1
1
1
2
2 slice
A differenza delle clique e dei core le m-slice considerano la forza
delle connessioni (peso delle linee) Net/Partitions/valued core
Isole
In una rete dove sono note alcune proprietà dei vertici o delle linee
si possono trovare isole (isole di vertici o isole di archi). Le isole
sono clusters di vertici connessi con linee aventi valori più alti
delle linee che collegano i vertici con gli altri ovvero il valore
delle linee all’interno dell’isola è maggiore del valore delle linee
tra isole. Si crea una partizione, una comunità.
In Pajek le isole si calcolano:
Net/Partitions/Islands/Line Weigths
Differenza tra m-slice e islands
Peso archi
E’ una differenza di rappresentazione
1 m-slice
2 isole
Studio delle reti bipartite con Pajek
ESEMPIO
DAVIS SOUTHERN CLUB WOMEN
DESCRIPTION
18 women×14 events
BACKGROUND
These data were collected by Davis et al in the 1930s.
They represent observed attendance at 14 social events by 18 Southern women.
The result is a person-by-event matrix: cell (i,j) is 1 if person i attended social event
j, and 0 otherwise.
REFERENCES
Breiger R. (1974). The duality of persons and groups. Social Forces, 53, 181-190.
Davis, A et al. (1941). Deep South. Chicago: University of Chicago Press.
Rappresentazione grafica
Statistica di base su tutta la rete
Statistica di base ed avanzata sulle proiezioni
Coesione: m-slide, isole
Davis1.net
…..
Visualizziamo la rete
Draw/draw
Visualizziamo la rete con la bi partizione
Net/Partition/2-mode
Draw/Draw partition
Statistica di base sulla rete completa
Info/Network/General
Statistica di base sulla proiezione
Proiezione sulle righe (women)
Proiettiamo la rete
Net/Transform/2-mode to 1-mode/Rows (include loops)
Info/Network/general
(n=18, m=157 (erano 93 prima della proiezione), loops=18)
Statistica avanzata sulla proiezione
Proietto su Rows senza loops e linee multiple
Net/Transform/Remove Loops
Rimuovo le linee <3 (nelle proiezioni tendono ad esserci
troppe linee.
Net/transform/remove/line with values/lower than (3)
Elimino i nodi isolati
Net/transform/reduction/degree (all)
Controllo se c’è solo una componente connessa
Net/Component/weak
Net/Path between 2 vertices/Diameter  3
Net/Path between 2 vertices/Shortest Path Length matrice
La matrice si può salvare in un file di testo (prova2.m).
Distanza media=1.8125
Diametro=3
Degree Distribution
Proiettando Davis.net sull’insieme delle donne
No loops, no multiple lines
donne
eventi
Misuriamo la coesione (m-slice e isole)
Proietto su Rows no loops e no linee multiple
Net/Transform/2-mode 1 mode/Rows
Se troppo densa rimuoviamo
delle linee
Info /network/line Values
Net/transform/Remove/line
with value/lower than (3)
Se ci sono nodi isolati li
rimuoviamo:
Net transform/reduction/Degree/All
Digitare 2 e rispondere «si» alle
domande seguenti
m-slices in Pajek
Net/Partitions/Valued Core/ Use max instead of sum
Net/Partitions/Valued Core/ First threshold and Step/Input
First theshold=0, Step=1
Ora Pajek ha creato una partizione con i numeri delle classi che corrispondono
alla più alta m-slice a cui ogni vertice appartiene.
Per rappresentare le m-slice:
Draw/Draw Partition
Per interagire
Export/2D/SVG/line value/Nested Classes
Aprendo la figura con un browser si possono deselezionare dei box e tutte le linee
con valori fino a quello segnato saranno cancellate e così pure i vertici isolati.
NB: le slice individuano sottoinsiemi di donne che hanno almeno
Con un’altra donna un certo numero k di eventi in comune
esempio
3
1
4
2
5
1
Nodi del value core-1 e non del value core-2
Nodi del value core-2 e non del value core-3
Nodi del value core-3 e non del value core-4
Nodi del value core-4 e non del value core-5
Nodi del value core-5 e non del value core-6
Isole
Le isole sono clusters di vertici connessi con linee aventi
valori più alti delle linee che collegano i vertici con gli altri
ovvero il valore delle linee all’interno dell’isola è maggiore
del valore delle linee tra isole. Si crea una partizione, una
comunità.
Nella rete bimodale (rows) vista prima calcoliamo isole di archi:
In Pajek le isole si calcolano:
Net/Partitions/Islands/Line Weigths
Esercizio:
Davis1.net. Calcolare le isole di linee di dimensione da 2 a 6 per entrambe le reti
ottenute dalla 2-mode network.
esempio
3
1
4
2
5
2 isole ma
1 value-core (1-slice)
1
Nodi del value core-1 e non del value core-2
Nodi del value core-2 e non del value core-3
Nodi del value core-3 e non del value core-4
Nodi del value core-4 e non del value core-5
Nodi del value core-5 e non del value core-6
ISOLA
Draw partition
Draw partition-vector
Correlazione/Influenza tra i nodi:
Normalizzazione in Pajek
Per normalizzare:
Net/Tranform/2-mode 1-mode/ rows (include loops no multiple lines)
Net/Transform/2-Mode to 1-Mode/Normalize 1-Mode
(GEO o MINDIR)
Info/Network/line Value
Net/ Transform/Remove/line with value/Lower than (0.7)
La normalizzazione con GEO crea degli archi pesati (non
diretti) che ci dicono quanti interessi in comune hanno 2 donne.
La normalizzazione con MINDIR crea una rete diretta che ci
dice quanto una donna è influenzata dall’altra
GEO
MinDir
Misure di centralità
Osservazioni:
Le misure di centralità come il clustering e la betweenness,
non hanno molto senso per Davis.net
Può servire invece la misura di centralità basata sull’outdegree dopo aver normalizzato la rete per vedere quali
donne sono più influenti su un maggior numero di altre
la misura di centralità basata sull’out-degree dopo aver
normalizzato la rete per vedere quale donna influenza il
maggio numero di altre donne
Draw-Vector
Esercizi (cap5):
Considerare le seguenti reti 2-mode e misurare: la statistica di
base, avanzata e la coesione (m-slice e isole) delle proiezioni
1. Scotland.net
Corporate interlocks in Scotland (1904-5).
Scotland.net: Pajek two-mode network with 244 vertices (136
multiple directors and 108 companies), 356 edges (directorate), no
arcs, no loops.
Industrial_categories.clu: classification of the 108 companies
according to industry type (1 - oil & mining, 2 - railway, 3 engineering & steel, 4 - electricity & chemicals, 5 - domestic
products, 6 - banks, 7 - insurance, 8 - investment.
Capital.vec: the total capital or deposits of the (108) companies (in
1,000 pound sterling).
Scotland.paj: Pajek project file with the data described above.
2. Movies.net
Movies.net: two-mode network with 102 vertices (40 composers and 62
producers), 192 valued edges (cooperation of producer and composer;
line values represent the number of films cooperated on).
Movies_top_composers.clu: identification of the five top composers (1 top 5 composer, 0 - not a top 5 composer).
This network contains the collaboration of 40 composers of film scores
and the 62 producers who produced a minimum of five movies in
Hollywood, 1964-1976. This is a 2-mode network: a line between a
composer and a producer indicates that the former created the soundtrack
for the movie produced by the latter. The line values indicate the number
of movies by one producer for which the composer created the music in
the period 1964- 1976. The five top composers, each of whom earned
1.5% or more of the total income of Hollywood movie score composers
in the 1960s and 1970s, are identified.
Alcuni studi sulle reti bipartite
Communities in italian corporate networks
C. Piccardi, L.Calatroni, F. Bertoni
Physica A 389 (2010) 5247-5258
Gli autori applicano la
community analysis per
individuare possibili partizioni
tra direttori o consigli di
amministrazione. Nodi dello
stesso gruppo avranno proprietà
in comune o ruoli simili
Boards
Directors
Un sottoinsieme Chn (n° di nodi) è chiamato community
se la densità dei link interni a Ch è maggiore della densità
dei link che connettono i nodi Ch con il resto della rete
Una definizione quantiva di
community è stata data da
Newman and Girvan (2004)
introducendo il concetto di
modularity Q
La modularità Q misura il numero di link all’interno della comunità rispetto
a quelli attesi se la rete fosse random (link medi per nodo per il numero di
nodi). Q è un valore normalizzato. Q è dato per una fissata rete e una fissata
partizione. L=numero di links ki=grado nodo i, aij=elemento matrice
adiacenza, c=community
Somma al variare
delle comunità
nella partizione
1
a  numero link interni alla comunità c

ij ij
2
ki k j
1
 numero di link se la comunità c fosse random

ij
2
2L
Somma al variare
dei link nella
comunità
Community analysis: trovare la partizione che massimizza Q
Q è un valore normalizzato e 1. Q è calcolato fissata una rete e una
partizione
Italian corporate board
network for those
companies listed in italian
Stock Market at the end of
2008 (http://consob.it)
Proiezione sui boards
Pirelli
12 communities nella giant component
Community structure: Qmax=0.66, z=51.7
Se trascuriamo i pesi:
Community structure: Qmax=0.54, z=12
Conclusione la community sctucture dei consigli si amministrazione rimane
importante
Proiezione sulle firms/directors
Nodi:firms
Links: esiste un link tra A e B se le decisioni di B possono essere
influenzate da A ad esempio quando i direttori di A sono anche
azionisti di B. La matrice delle connessioni si può supporre
simmetrica
15 communities (giant component)
Community structure: Qmax=0.82, z=29.2
Se trascuriamo i pesi:
Community structure: Qmax=0.59, z=3.82
Conclusione la community structure delle firms è molto meno
importante
Quantificazione della similitudine tra le due proiezioni (partizioni)
Esistono diversi indicatori per misurare quanto le due proiezioni
diano le stesse informazioni
L’aspetto più interessante della community analysis è la capacità di
mettere in evidenza forme più sottili di coalizione
Per l’interpretazione dei risultati si rimanda all’articolo
Lavori
http://vlado.fmf.uni-lj.si/pub/networks/data
1. Presentare il data set
2. Illustrare le analisi già fatte in letteratura sul data
set (references)
3.
a. Rappresentare graficamente e
matematicamente la rete,
b. applicare la statistica di base
c. applicare la statistica avanzata (centralità dei
nodi, degree
distribution)
d. studiare la coesione (componenti connesse)
Soft specifico
Cfr tra modi di
raccogliere dati
sociali
no
Hub-authorities
Similarity in Slovenian
parties
Manca descrizione
no
no
no
no
no
no
no
Paper/authors
no
no
no
no
no
no
no
no
no
no
no