Ishodi učenja:

Utvrditi koheziju, komponente, jezgru/periferiju i zajednice.
Interpretirati modularnost i usporediti algoritme detekcije zajednica.
Identificirati aktere mostove/brokere i objasniti strukturne rupe.
Procijeniti stabilnost zajednica i implikacije za praksu.

Kako opisujemo strukturu mreže?

U ovom dijelu bavimo se konceptima koji nadilaze osnovne mjere centralnosti, a usmjereni su na strukturalnu povezanost i unutarnju organizaciju mreže. Zapravo primijenjujemo razmatranja o strukturi mreže, konceptualno ih povezujući s tipovima mreža, uz povremeno referiranje na mjere centralnosti. Struktura mreže odnosi se na način na koji su čvorovi povezani (gustoća, komponente, jezgra, klasteri). Emergentna svojstva su obrasci koji nastaju kao posljedica te strukture (polarizacija, koncentracija, segmentacija, robustnost).

U teorijskom dijelu krećemo od formalnog pojma povezanosti i komponenti, zatim prelazimo na kohezivne podskupine (klike, k-jezgre, k-povezanost), potom na modele jezgra–periferija, detekciju zajednica i naposljetku na strukturne rupe kao mostove između zajednica. U formalnom smislu, broj komponenti \(\omega(G)\) definira se kao broj maksimalnih povezanih podgrafova u grafu \(G\). Mreža je povezana ako vrijedi \(\omega(G)=1\), a svaka dodatna komponenta signalizira fragmentaciju. Ovaj koncept izravno je povezan s robusnošću i kohezijom mreže: mreža s više komponenti ima slabiju globalnu koheziju jer ne postoji put između svih parova čvorova. Kohezija se dodatno formalizira kroz \(k\)-povezanost, gdje graf ostaje povezan nakon uklanjanja do \(k-1\) čvorova. Što je veća vrijednost \(k\), mreža je strukturno otpornija i kohezivnija.

Kod kohezivnih podskupina, osnovni pojam je klika – potpuni podgraf u kojem je svaki par čvorova povezan bridom. U terminima teorije grafova, riječ je o podgrafu izomorfnom s \(K_n\). Klika predstavlja maksimalni lokalni stupanj kohezije. Međutim, u realnim mrežama rijetko nalazimo velike potpune podgrafove, pa se uvodi blaži kriterij – k-jezgra (k-core), definirana kao maksimalni podgraf u kojem svaki čvor ima stupanj barem \(k\) unutar tog podgrafa. Ona omogućuje identifikaciju „guste jezgre” mreže bez zahtjeva potpune povezanosti.

Model jezgra–periferija pretpostavlja postojanje gusto povezane jezgre i rjeđe povezane periferije. Jezgra je strukturno stabilna, s visokim međusobnim stupnjem povezanosti, dok su periferni čvorovi slabo povezani i često vezani primarno uz jezgru (ali ne i međusobno). U praksi se takva struktura često javlja u organizacijskim i informacijskim mrežama.

Detekcija zajednica (community detection) temelji se na ideji da su veze unutar grupe gušće nego među grupama. U kontekstu kompleksnih mreža, takva modularna struktura često objašnjava funkcionalnu podjelu sustava. Formalno, zajednice možemo identificirati optimizacijom modularnosti ili algoritmima poput Louvain metode.

Modularnost formalizira intuiciju zajednica: mreža ima izražene zajednice kada su veze unutar grupa gušće nego što bismo očekivali u odgovarajućem „nasumičnom” modelu s istom distribucijom stupnjeva (što je tipičan konceptualni okvir u znanosti o mrežama). U praksi, modularnost se najčešće uvodi kao funkcija cilja koju algoritmi detekcije zajednica maksimiziraju, pa je korisno modularnost najprije razmatrati kao mjeru kvalitete particije, a tek potom analizirati kako algoritam dolazi do particije. Ovi algoritmi zapravo provode klasteriranje ili postupak utvrđivanja klastera čvorova. U tom kontekstu, zajednice ili klasteri, odnose se na makro-strukturu – podjelu mreže na skupine čvorova s gušćim unutarnjim vezama. Koeficijent klasterizacije, naprotiv, mjeri lokalnu tranzitivnost ili sklonost stvaranju tripleta – dakle mikro-strukturu mreže.

Napokon, koncept strukturnih rupa (structural holes) odnosi se na situacije gdje dva dijela mreže nisu izravno povezani, a pojedini čvor premošćuje tu prazninu. Takav čvor ima stratešku poziciju jer kontrolira protok informacija između inače nepovezanih zajednica. U terminima teorije grafova, riječ je o čvorovima koji se često nalaze na mostovima (bridovima čije uklanjanje povećava broj komponenti). Mostovi i artikulacijske točke stoga su ključni indikatori strukturne važnosti.

Potom se bavimo emergentnim svojstvima - svojstvima koja proizlaze iz mreže kao cjeline i to je vjerojatno najzanimljiviji dio u kojem prepoznajemo na koje je sve načine cjelina više od sume svojih dijelova.

Priprema podataka i postavke

U ovoj lekciji ćemo uspoređivati po jednu „tehnološku” i „društvenu” mrežu kako bi se vidjelo da iste formalne definicije opisuju različite mehanizme organizacije sustava, što je u skladu s idejom da mreže iz različitih disciplina često pokazuju slične oblike, ali s različitim interpretacijama.

library(igraph)
library(ggraph)
library(ggplot2)
library(tidygraph)
library(netrankr)
library(igraphdata)
library(tidyverse)
library(dplyr)
library(sna)
library(statnet)

##      Installed ReposVer Built  
## ergm "4.11.0"  "4.12.0" "4.4.0"

g_tech <- r_sna_paketi   # zadnji primjer iz lekcije o mjerama centralnosti

U kodu i nastavku, na mrežu R paketa koje koristimo u SNA, referiramo se i kao g_tech ili tehnološku mrežu.

data("karate", package = "igraphdata")  # učita dataset u global environment
igraph::upgrade_graph(karate) # ako nije učitana najnovija verzija

## IGRAPH 4b458a1 UNW- 34 78 -- Zachary's karate club network
## + attr: name (g/c), Citation (g/c), Author (g/c), Faction (v/n), name
## | (v/c), label (v/c), color (v/n), weight (e/n)
## + edges from 4b458a1 (vertex names):
##  [1] Mr Hi  --Actor 2  Mr Hi  --Actor 3  Mr Hi  --Actor 4  Mr Hi  --Actor 5 
##  [5] Mr Hi  --Actor 6  Mr Hi  --Actor 7  Mr Hi  --Actor 8  Mr Hi  --Actor 9 
##  [9] Mr Hi  --Actor 11 Mr Hi  --Actor 12 Mr Hi  --Actor 13 Mr Hi  --Actor 14
## [13] Mr Hi  --Actor 18 Mr Hi  --Actor 20 Mr Hi  --Actor 22 Mr Hi  --Actor 32
## [17] Actor 2--Actor 3  Actor 2--Actor 4  Actor 2--Actor 8  Actor 2--Actor 14
## [21] Actor 2--Actor 18 Actor 2--Actor 20 Actor 2--Actor 22 Actor 2--Actor 31
## [25] Actor 3--Actor 4  Actor 3--Actor 8  Actor 3--Actor 9  Actor 3--Actor 10
## + ... omitted several edges

g_soc <- karate # predzadnji primjer iz lekcije o mjerama centralnosti

U kodu i nastavku, na mrežu karate kluba referiramo se i kao g_soc ili društvenu mrežu.

Slučajni grafovi često se koriste kao bazni (nul) modeli u analizi mreža. Ideja nul-modela jest usporediti opaženu mrežu s mrežom koja je generirana prema jednostavnom, stohastičkom pravilu, kako bismo procijenili jesu li opažena svojstva (npr. broj komponenti, klasterizacija, modularnost) rezultat specifične strukture ili bi se takva struktura mogla pojaviti i „slučajno”. Takva usporedba omogućuje razlikovanje strukturnih obrazaca od pukih posljedica veličine mreže i gustoće veza.

Jedan od najčešće korištenih modela slučajnog (random) grafa je Erdős–Rényi model, u kojem svaki mogući brid između \(n\) čvorova postoji s jednakom vjerojatnošću \(p=\frac{1}{n}\) (gdje je \(n\) broj čvorova u mreži), neovisno o ostalim bridovima. U oznaci \(G(n,p)\), parametar \(n\) predstavlja broj čvorova, a \(p\) vjerojatnost formiranja pojedinog brida. Ovakav model nema ugrađene smislene zajednice, hijerarhiju ni preferencijalno povezivanje; svaka struktura koja se pojavi posljedica je isključivo slučajnosti. Upravo zato je koristan kao referentna točka za usporedbu s realnim (društvenim ili tehnološkim) mrežama. U kodu i nastavku, na ovu mrežu referiramo se i kao `rg`` ili slučajni (random) graf.

# kreiramo slučajni (random) graf za usporedbu
set.seed(1) # da možemo ponovo dobiti isti graf
rg <- sample_gnp(100, 1 / 100)

Gustoća mreže (density)

Ovime smo se već bavili ranije, pa ćemo ovdje samo ponoviti kroz primjere.

edge_density(g_soc, loops = FALSE)

## [1] 0.1390374

edge_density(g_tech, loops = FALSE)

## [1] 0.0506311

edge_density(rg, loops = FALSE)

## [1] 0.01111111

Mreža Karate kluba je neusmjerena i ponderirana, gdje čvorovi predstavljaju članove, a bridovi predstavljaju odnose. Težina brida (weight) kodira različite zajedničke aktivnosti, pa uz strukturu promatramo i intenzitet odnosa. Promatrana mreža sastoji se od 34 čvora i 78 bridova, uz gustoću od približno 0.14. To znači da je ostvareno oko 14% svih mogućih veza. Mreža nije gusta, ali nije ni izrazito rijetka; riječ je o umjereno povezanoj strukturi bez izoliranih čvorova.

Graf R paketa je usmjereni i neponderirani. Sastoji se od 84 čvora i 353 luka. Ne postoje čvorovi sa stupnjem 0 (izolirani). Gustoća mreže iznosi 0.0506, što znači da je realizirano približno 5% svih mogućih usmjerenih veza. Takva vrijednost upućuje na izrazito rijetku strukturu, što je očekivano za mreže ovisnosti koje imaju hijerarhijsku i modularnu organizaciju, a ne logiku “svi sa svima”. Tehnološke mreže poput ove tipično pokazuju nisku gustoću uz snažnu koncentraciju ovisnosti oko manjeg broja infrastrukturnih čvorova.

Slučajni (random) grafovi imaju tendenciju imati nisku gustoću. Pri nasumičnom povezivanju, ne nastaju povezanosti i strukture koje prepoznajemo u mrežama u kojima veze nastaju kao posljedica mikro-mehanizama koji usmjeravaju povezivanje i daju im smisao.

Gustoća (density) nam daje baznu informaciju o razini strukturne zasićenosti mreže – koliki je udio svih mogućih veza stvarno realiziran. Bez te informacije teško je interpretirati bilo koju drugu mjeru kohezije ili fragmentacije.

Mnoge strukturne mjere (klasterizacija, modularnost, connectedness, centralnosti) implicitno ovise o tome koliko je mreža gusta. Primjerice:

visoka modularnost u vrlo gustoj mreži znači nešto sasvim drugo nego ista vrijednost modularnosti u rijetkoj mreži,
broj klika snažno raste s gustoćom,
connectedness može biti visoka čak i kad je gustoća niska (jedna velika komponenta s malo bridova).

Gustoća utječe na:

prosječnu duljinu puta,
promjer mreže,
pojavu divovske komponente,
robusnost mreže.

U rijetkim mrežama često dobivamo fragmentaciju i dulje puteve, dok u gustim mrežama kraće puteve i veću redundanciju veza. Time gustoća izravno oblikuje makro-strukturu grafa. Drugim riječima, gustoća daje kontekst ostalim pokazateljima.

Također, budući da je gustoća normirana mjerom \(n(n-1)\), omogućuje usporedbu mreža različite veličine. Broj bridova sam po sebi nije informativan – 200 bridova u mreži od 50 čvorova znači nešto sasvim drugo nego 200 bridova u mreži od 500 čvorova.

Dakle, gustoća je temeljna makro-strukturna mjera jer kvantificira razinu zasićenosti mreže vezama. Iako sama po sebi ne govori o organizaciji veza (npr. postoje li zajednice ili jezgra), ona pruža referentni okvir za interpretaciju ostalih mjera. Bez poznavanja gustoće teško je procijeniti je li određeni broj klika, razina modularnosti ili connectedness očekivana ili strukturno značajna.

Povezivost mreže (connectedness)

Gustoća (density) i povezivost (connectedness) opisuju dvije različite dimenzije strukture grafa. Gustoća govori koliko je veza realizirano u odnosu na maksimalno moguće, tj. koliko je mreža „zasićena” bridovima ili povezana, dok povezivost govori koliko je mreža prohodna u smislu dostižnosti: može li se od jednog čvora doći do drugog nekim putem. U terminima teorije grafova, povezivost se oslanja na pojam puta i na definiciju da je graf povezan ako između svakog para čvorova postoji put, a kada to nije slučaj graf se raspada na komponente. Za usmjerene grafove dodatno razlikujemo jaku i slabu povezivost, što je povezano s dosegom putem usmjerenih puteva.

Povezanost (u smislu connectedness) možemo definirati kao udio dostižnih uređenih parova čvorova. Neka je \(n\) broj čvorova i neka je indikator dostižnosti

\[ r_{ij}= \begin{cases} 1, & \text{ako postoji put od } i \text{ do } j,\\ 0, & \text{inače.} \end{cases} \] Tada je connectedness

\[ C=\frac{\sum_{i\neq j} r_{ij}}{n(n-1)}. \]

Vrijednost \(C\) je u rasponu \([0,1]\). Ako je \(C=1\), svi parovi su međusobno dostižni (u neusmjerenom grafu to znači da je graf povezan; u usmjerenom grafu to odgovara jakoj povezanosti). Ako je \(C\) manji od 1, postoji barem jedan par čvorova između kojeg ne postoji put, što znači da je neusmjerena mreža fragmentirana (na komponente) ili da je dostižnost u usmjerenoj mreži ograničena smjerovima bridova.

U sna paketu se connectedness računa nad matricom susjedstva, pa je praktično prvo pretvoriti igraph objekt u matricu.

A_soc  <- as.matrix(as_adjacency_matrix(g_soc, sparse = FALSE))
A_tech <- as.matrix(as_adjacency_matrix(g_tech, sparse = FALSE))
A_rg <- as.matrix(as_adjacency_matrix(rg, sparse = FALSE))

# connectedness 
connectedness(A_soc)

## [1] 1

connectedness(A_tech)

## [1] 1

connectedness(A_rg)

## [1] 0.120202

Usporedba connectedness između društvene i tehnološke mreže govori nam jesu li čvorovi u prosjeku dosežni jedni drugima, odnosno koliko je mreža funkcionalno kohezivna u smislu prohodnosti. Obje mreže imaju connectedness 1, pa očekujemo da će mreže imati jednu komponentu. Nasuprot njima, random graf ima vrlo nisku povezivost, što i očekujemo uočiti u takvom grafu.

Razlika se može pojaviti kod usmjerene analize: moguće je da je mreža slabo povezana (postoje putevi kad zanemarimo smjer), ali nije jako povezana (smjerovi onemogućuju doseg za dio parova), što je tipično važno u komunikacijskim i tehnološkim sustavima gdje poruka mora moći „putovati” u ispravnom smjeru.

U istom paketu postoji druga funkcija koja bi zbog sličnsti prijevoda na hrvatski mogla izazvati zabunu, reachability(). U doslognom prijevodu to bi bila dosežnost, koju smo spominjali u interpretaciji povezivosti. Funkcija reachability() generira matricu dostižnosti, u kojoj element \(r_{ij}\) poprima vrijednost 1 ako postoji put od čvora \(i\) do čvora \(j\), a 0 inače. Connectedness se zatim dobiva agregiranjem te matrice, odnosno računanjem udjela dostižnih parova u odnosu na sve moguće parove čvorova. To znači da connectedness ne mjeri izravne veze, nego globalnu prohodnost mreže. Odnosno, reachability() bismo koristili u situaciji u kojoj nas zanima je li određeni akter dosežan drugom akteru (mikro razina), što bismo onda iščitali iz matrice dostižnosti.

Komponente mreže

Prije bilo kakve analize kohezije ili zajednica, treba znati je li mreža u jednom komadu. Komponente otkrivaju fragmentaciju: jesu li akteri/paketi/grupe izolirani ili postoji put između većine čvorova?

Graf je povezan ako između svakog para različitih čvorova postoji put. Komponenta je maksimalni povezani podgraf; broj komponenti označava se s \(\omega(G)\).

Razlikuje se jaka i slaba povezanost: usmjereni graf je jako povezan ako između svakog para čvorova postoji usmjereni put u oba smjera, a slabo povezan ako je samo njegov pridružen neusmjereni graf (u kojem se zanemaruje smjer veza) povezan.

Interpretacija: \(\omega(G)=1\) znači da je mreža povezana; veće \(\omega(G)\) znači veću fragmentaciju, a veličine komponenti govore koliko je ta fragmentacija „ozbiljna”.

comp_tech <- igraph::components(g_tech)
comp_soc  <- igraph::components(g_soc)

comp_tech$no

## [1] 1

comp_tech$csize

## [1] 84

comp_soc$no

## [1] 1

comp_soc$csize

## [1] 34

U oba primjera je \(\omega(G)=1\), dakle mreže su povezane. To znači da je svaki paket/akter dostižan iz svakog drugog nekim putem, pa su mjere poput prosječne duljine putova, modularnosti ili k-jezgre smisleno interpretabilne na razini cijele mreže (bez potrebe da radimo s komponentama). U širem kontekstu, u analizama velikih mreža često se spominje pojava divovske komponente (giant component), gdje većina čvorova pripada jednoj komponenti, a ostatak su mali fragmenti.

par(mfrow=c(1,2))

comps <- igraph::components(g_tech)$membership
colbar <- rainbow(max(comps) + 1)
V(g_tech)$color <- colbar[comps + 1]
plot(g_tech, layout = layout_with_fr, vertex.size = 5, edge.arrow.size = 0.5, vertex.label = NA)

comps <- igraph::components(g_soc)$membership
colbar <- rainbow(max(comps) + 1)
V(g_soc)$color <- colbar[comps + 1]

plot(g_soc, layout = layout_with_fr, vertex.size = 5, vertex.label = NA)

Brzi primjer sa slučajnim grafom omogućit će nam uvid kako mreža s puno komponenti može izgledati.

comps <- igraph::components(rg)$membership
colbar <- rainbow(max(comps) + 1)
V(rg)$color <- colbar[comps + 1]
plot(rg, layout = layout_with_fr, vertex.size = 5, vertex.label = NA)

comp_rg <- igraph::components(rg)
comp_rg$no

## [1] 50

comp_rg$csize

##  [1]  1  1  1 34  2  1  1  1  2  2  1  2  1  5  6  1  1  1  1  1  1  1  1  3  1
## [26]  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  2  1  1  1  1  1  2  1  1  1

U ovom grafu dobivamo \(\omega(G)=50\), što znači da je mreža fragmentirana u 50 maksimalno povezana podgrafa. Najveća komponenta ima 34 čvora, dok su mnoge komponente vrlo male, uključujući izolirane čvorove. Ovakav rezultat ilustrira kako mreža bez organizacijskog principa (bez zajednica, jezgre ili preferencijalnog povezivanja) može pokazivati znatnu fragmentaciju.

Klike i k-core

Klike

Klika je „idealna” lokalna kohezija: svi su sa svima povezani. U praksi klike često signaliziraju vrlo zatvorene skupine ili funkcionalne module.

Formalna definicija. Klika je potpuni podgraf; u metodama identifikacije kohezivnih skupina klike se mogu povezivati u „k-clique communities” preko pravila adjacencije (dijele \(k-1\) čvorova).

Interpretacija: veće klike = jača lokalna kohezija; preklapanje klika implicira potencijalno preklapanje grupa.

max_cl_tech <- max_cliques(g_tech)
max_cl_soc  <- max_cliques(g_soc)
max_cl_rg  <- max_cliques(rg)

length(max_cl_tech)

## [1] 190

length(max_cl_soc)

## [1] 36

length(max_cl_rg)

## [1] 95

U igraph-u funkcija max_cliques() vraća maksimalne klike, tj. klike koje se ne mogu proširiti dodavanjem još jednog čvora, a da i dalje ostanu klike. To nije isto što i najveća klika (maksimalne klike mogu imati različite veličine). Zbog toga je uz broj maksimalnih klika važno promatrati i distribuciju njihovih veličina.

par(mfrow=c(1,3))
sizes_soc  <- sapply(max_cl_soc, length)
hist(sizes_soc, breaks = c(0.5,1.5,2.5,3.5,4.5,5.5,6.5,7.5))

sizes_tech <- sapply(max_cl_tech, length)
hist(sizes_tech, breaks = c(0.5,1.5,2.5,3.5,4.5,5.5,6.5,7.5))

sizes_rg <- sapply(max_cl_rg, length)
hist(sizes_rg, breaks = c(0.5,1.5,2.5,3.5,4.5,5.5,6.5,7.5))

Udid u nekoliko klika:

max_cliques(g_tech)[[1]]

## + 2/84 vertices, named, from 2cec18b:
## [1] utf8   pillar

max_cliques(g_tech)[[50]]

## + 3/84 vertices, named, from 2cec18b:
## [1] knitr   methods ergm

max_cliques(g_tech)[[189]]

## + 4/84 vertices, named, from 2cec18b:
## [1] ergm       ergm.multi tibble     methods

max_cliques(g_soc)[[1]]

## + 2/34 vertices, named, from 4b458a1:
## [1] Actor 12 Mr Hi

max_cliques(g_soc)[[5]]

## + 3/34 vertices, named, from 4b458a1:
## [1] Actor 16 Actor 33 John A

max_cliques(g_soc)[[33]]

## + 5/34 vertices, named, from 4b458a1:
## [1] Actor 2 Mr Hi   Actor 4 Actor 3 Actor 8

Rezultati pokazuju da tehnološka mreža (g_tech) sadrži 190 maksimalnih klika, dok društvena mreža (g_soc) sadrži 36 maksimalnih klika. Važno je naglasiti da funkcija max_cliques() u paketu igraph pri izračunu maksimalnih klika zanemaruje smjer bridova (edge directions are ignored for maximal clique calculations). Drugim riječima, usmjereni graf se implicitno promatra kao neusmjeren pri identifikaciji potpunih podgrafova. Time se klika interpretira isključivo kao struktura uzajamne povezanosti, neovisno o smjeru odnosa.

Klike u društvenoj mreži kreću se u rasponu od 2 - 5 člana klike, dok je u tehnološkoj mreži raspon veličine klike od 2 do 6 članova. Može se uočiti da u društvenoj mreži prevladavaju manje klike, od 2 i 3 člana, uz nekolicinu većih klika od 4 i 5 članova. U tehnološkoj mreži, distribucija klika je umjerenija, a najčešće se pojavljuju klike s 4 člana (mod), a sljedeće po učestalosti su klike s 3 člana.

Također, vidimo da u slučajnom grafu izolirani čvorovi čine svoje vlastite klike (s 1 članom). Uz njih, pojavljuju se i klike s po dva člana, no ne uočavamo klike veće od toga.

Broj maksimalnih klika ne govori samo o „količini zatvorenih skupina”, nego i o složenosti lokalne strukture mreže. Velik broj malih klika može ukazivati na gusto lokalno povezivanje bez velikih kohezivnih blokova, dok postojanje većih klika signalizira snažnu lokalnu koheziju. Budući da se klike mogu preklapati (dijeliti čvorove), one često predstavljaju jezgre potencijalnih zajednica ili funkcionalnih modula. Upravo je ideja preklapanja klika temelj koncepata poput k-clique communities, gdje se zajednice definiraju preko niza susjednih klika koje dijele \(k-1\) čvorova.

U društvenim mrežama klike često odgovaraju vrlo zatvorenim skupinama (npr. mali krug prijatelja), dok u tehnološkim mrežama mogu predstavljati skupine elemenata koji su međusobno visoko kompatibilni ili funkcionalno povezani.

# jedna klika u društvenoj mreži
one_clique_soc <- max_cliques(g_soc)[[5]]

V(g_soc)$clique <- ifelse(V(g_soc) %in% one_clique_soc, "klika", "ostalo")

plot(g_soc,
     layout = layout_with_fr,
     vertex.color = ifelse(V(g_soc)$clique == "klika", "darkred", "lightgray"),
     vertex.size = 6,
     vertex.label = NA)

# jedna klika u tehnološkoj mreži
one_clique_tech <- max_cliques(g_tech)[[5]]

V(g_tech)$clique <- ifelse(V(g_tech) %in% one_clique_tech, "klika", "ostalo")

plot(g_tech,
     layout = layout_with_fr,
     vertex.color = ifelse(V(g_tech)$clique == "klika", "darkred", "lightgray"),
     vertex.size = 6,
     vertex.label = NA)

Iako su klike intuitivna slika „savršene” kohezije, u realnim mrežama one su često male i osjetljive na jednu propuštenu vezu. Zato se u praksi često koristi blaži kriterij kohezije, k-core, koji traži da svaki čvor ima najmanje \(k\) veza unutar kohezivnog podskupa, bez zahtijevanja potpune povezanosti.

k-core

U realnim mrežama klike su često previše stroge. k-core nudi robusniju ideju „jezgre”: skupina u kojoj svaki čvor ima barem k veza unutar te skupine.

Formalna definicija. k-core je maksimalni podgraf u kojem svaki čvor ima stupanj barem \(k\) unutar tog podgrafa.

Interpretacija: vrijednost coreness čvora govori koliko se “duboko” u kohezivnoj jezgri čvor nalazi.

V(g_tech)$core <- coreness(g_tech)
V(g_soc)$core  <- coreness(g_soc)
V(rg)$core  <- coreness(rg)

summary(V(g_tech)$core)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   5.000   4.798   7.000   7.000

summary(V(g_soc)$core)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   3.000   2.912   4.000   4.000

summary(V(rg)$core)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    0.00    1.00    0.78    1.00    2.00

Bojom čvora prikazujemo njegovu coreness. Vidimo tipičan obrazac: jezgra se pozicionira u središtu layouta.

pal <- colorRampPalette(c("#f8f5ef", "#d9c6a5", "#8c6f3f")) # paleta boja
# skaliranje boja prema rasponu coreness-a
n_colors  <- length(unique(V(g_soc)$core))
cols <- pal(n_colors)
# mapiranje vrijednosti u indeks palete
col_index <- as.numeric(factor(V(g_soc)$core, levels = sort(unique(V(g_soc)$core))))
V(g_soc)$color <- cols[col_index]

plot(g_soc, layout = layout_with_fr, vertex.size = 6, vertex.label = NA, main = "Coreness društvene mreže")

# dodavanje legende
legend("topright",
       legend = sort(unique(V(g_soc)$core)),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       title = "Coreness",
       bty = "n")

Za društvenu mrežu (karate klub) vizualizacija jasno pokazuje slojevitu jezgru: tamnije obojani čvorovi (veći coreness) grupiraju se u središtu layouta, dok svjetliji čvorovi (manji coreness) ostaju na rubovima. Budući da je k-core definiran kao maksimalni podgraf u kojem svaki čvor ima stupanj barem \(k\) unutar tog podgrafa, tamniji čvorovi pripadaju „dubljim” jezgrama u smislu da zadovoljavaju strože iterativno „ljuštenje” mreže (uklanjanje čvorova koji ne zadovoljavaju minimalni stupanj). U ovom primjeru maksimalni coreness iznosi 4, što znači da postoji “4-jezgra”: skup čvorova koji su međusobno dovoljno gusto povezani da svaki od njih unutar jezgre ima barem 4 veze. Takva struktura je tipična za male društvene mreže: jezgra predstavlja stabilan krug intenzivnih interakcija, a periferija čvorove koji su povezani s mrežom, ali ne sudjeluju u „gustoj” kohezivnoj strukturi.

pal <- colorRampPalette(c("#f8f5ef", "#9ecae1", "#1f3a93")) # paleta boja
# skaliranje boja prema rasponu coreness-a
n_colors  <- length(unique(V(g_tech)$core))
cols <- pal(n_colors)
# mapiranje vrijednosti u indeks palete
col_index <- as.numeric(factor(V(g_tech)$core, levels = sort(unique(V(g_tech)$core))))
V(g_tech)$color <- cols[col_index]

plot(g_tech, layout = layout_with_fr, vertex.size = 6, vertex.label = NA, edge.arrow.size=0.5, main = "Coreness tehnološke mreže")

# dodavanje legende
legend("topright",
       legend = sort(unique(V(g_tech)$core)),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       title = "Coreness",
       bty = "n")

Za tehnološku mrežu (mreža R paketa) uočava se izraženija i dublja jezgra: raspon coreness vrijednosti ide do 7, a znatan broj čvorova ima srednje do visoke vrijednosti (tamnoplavi tonovi) koncentrirane u središnjem dijelu grafa. To sugerira da tehnološka mreža sadrži veću kohezivnu okosnicu, tj. skup elemenata koji su robustno međusobno povezani i u kojem svaki čvor unutar jezgre održava relativno visok minimalni stupanj. Upravo se ovdje vidi prednost k-core pristupa u odnosu na klike: klika zahtijeva potpunu povezanost (što je često previše strogo), dok k-core dopušta realističniju koheziju temeljenu na minimalnom stupnju, pa bolje signalizira funkcionalnu jezgru sustava. Smjerovi bridova na slici služe za interpretaciju odnosa, ali jezgrenost se ovdje čita kao razina strukturne gustoće unutar kohezivne jezgre (tj. koliko je čvor „duboko” u stabilnom podskupu po kriteriju minimalnog stupnja).

pal <- colorRampPalette(c("#f8f5ef", "darkred")) # paleta boja
# skaliranje boja prema rasponu coreness-a
n_colors  <- length(unique(V(rg)$core))
cols <- pal(n_colors)
# mapiranje vrijednosti u indeks palete
col_index <- as.numeric(factor(V(rg)$core, levels = sort(unique(V(rg)$core))))
V(rg)$color <- cols[col_index]

plot(rg, layout = layout_with_fr, vertex.size = 6, vertex.label = NA, main = "Coreness slučajne mreže")

# dodavanje legende
legend("topright",
       legend = sort(unique(V(rg)$core)),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       title = "Coreness",
       bty = "n")

Coreness se prirodno veže uz ideju jezgra–periferija: k-core daje operacionalizaciju „jezgre” kroz stupnjevite razine kohezije, a periferiju čine čvorovi koji se uklanjaju već pri niskim vrijednostima \(k\). Time se kohezija više ne promatra kao „sve ili ništa” (povezan/nepovezan; klika/ne-klika), nego kao hijerarhija stabilnosti podskupova, što je upravo ono što u realnim mrežama najčešće želimo mjeriti.

Jezgra i periferija

Jezgra–periferija je makro-obrazac: jezgra je gusto povezana i međusobno povezana, periferija je slabije povezana i često se „naslanja” na jezgru. U Jacksonovoj sistematizaciji to je jedna od tipičnih regularnosti društvenih i ekonomskih mreža.

Jezgra se identificira preko kohezivnih kriterija (npr. visok coreness), a periferiju tada čine preostali čvorovi.

Interpretacija je tada transparentna: jezgra = „stabilna kohezivna struktura”, periferija = „rubni akteri”.

# prag jezgre: npr. treći kvartil coreness (jednostavno) - heuristički prag (a ne formalni Borgatti–Everett model
thr_soc  <- quantile(V(g_soc)$core, 0.75, na.rm = TRUE)
V(g_soc)$cp <- ifelse(V(g_soc)$core >= thr_soc, "jezgra", "periferija")
cols <- c("periferija" = "#f8f5ef",
          "jezgra"     = "#8c6f3f")

plot(g_soc,
     layout = layout_with_fr,
     vertex.size = 6,
     vertex.color = cols[V(g_soc)$cp],
     vertex.label = NA,
     main = "Jezgra i periferija (na temelju coreness)")

legend("topright",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       bty = "n")

Kako bismo ilustrirali obrazac jezgra–periferija, prag definiramo kao treći kvartil distribucije coreness vrijednosti. Čvorove s vrijednošću coreness većom ili jednakom tom pragu interpretiramo kao jezgru, dok ostale označavamo kao periferiju. Važno je naglasiti da je ovakav pristup operacionalizacija radi vizualne interpretacije; formalno, k-core struktura definira jezgru za svaku vrijednost \(k\), a ne samo za jedan prag.

Dobivena slika pokazuje da jezgra čini kompaktan, međusobno gusto povezan skup čvorova smješten u središtu mreže, dok su periferni čvorovi raspoređeni na rubovima i povezani su s jezgrom, ali ne čine dio najdubljih kohezivnih slojeva.

Formalno najčišći pristup, ako radimo s k-core, jest uzeti jezgru kao najdublju k-jezgru, tj. čvorove s maksimalnim coreness (ili sve čvorove u \(k_{\max}\)-core). Ovdje prag nije percentil nego \(k_{\max}=\max_i c_i\), gdje je \(c_i\) coreness čvora \(i\). Interpretacija je jasna: jezgru čine čvorovi koji prežive najstroži kriterij minimalnog stupnja unutar jezgre (najveći \(k\)), a periferija su ostali. Prednost je što je kriterij izravno vezan uz definiciju k-core; nedostatak je što jezgra ponekad bude vrlo mala (što je didaktički ili analitički ponekad preoštro).

V(g_soc)$cp <- ifelse(V(g_soc)$core >= 4, "jezgra", "periferija")
cols <- c("periferija" = "#f8f5ef",
          "jezgra"     = "#8c6f3f")

plot(g_soc,
     layout = layout_with_fr,
     vertex.size = 6,
     vertex.color = cols[V(g_soc)$cp],
     vertex.label = NA,
     main = "Jezgra i periferija (na temelju max coreness)")

legend("topright",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       bty = "n")

Sljedeći pristup odnosi se na definiranje jezgre preko fiksnog praga k (npr. „jezgra je 3-core ili 4-core”), gdje prag biramo sadržajno: najmanji \(k\) za koji jezgra postaje „kompaktna” i stabilna, odnosno za koji više ne dobivate trivijalno veliku jezgru. Formalno, jezgra je skup čvorova s \(c_i \ge k\), a periferija \(c_i < k\). Jezgra je tada podmreža u kojoj svaki čvor ima barem \(k\) veza unutar jezgre.

V(g_soc)$cp <- ifelse(V(g_soc)$core >= 3, "jezgra", "periferija")
cols <- c("periferija" = "#f8f5ef",
          "jezgra"     = "#8c6f3f")

plot(g_soc,
     layout = layout_with_fr,
     vertex.size = 6,
     vertex.color = cols[V(g_soc)$cp],
     vertex.label = NA,
     main = "Jezgra i periferija (na temelju coreness>=3)")

legend("topright",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       bty = "n")

Nadalje, jezgru možemo definirati preko centralnosti (npr. stupanj, eigenvector, betweenness) ili kombinacije mjera, primjerice „jezgra je top 10% po stupnju” ili „top 10% po eigenvector centrality”. To nije core–periphery u smislu kohezije nego u smislu „utjecajne jezgre”. Prednost je interpretativna i povezuje se s prethodnim metrikama; nedostatak je što jezgra tada može biti visoko-centralna, ali ne nužno kohezivna (možete dobiti skup „hubova” koji nisu međusobno povezani).

V(g_soc)$eigen <- eigen_centrality(g_soc)$vector
eigen_soc  <- quantile(V(g_soc)$eigen, 0.9, na.rm = TRUE)
V(g_soc)$eigc <- ifelse(V(g_soc)$eigen >= eigen_soc, "jezgra", "periferija")
cols <- c("periferija" = "#f8f5ef",
          "jezgra"     = "#8c6f3f")

plot(g_soc,
     layout = layout_with_fr,
     vertex.size = 6,
     vertex.color = cols[V(g_soc)$eigc],
     vertex.label = NA,
     main = "Jezgra i periferija (na temelju eigenvektor centralnosti)")

legend("topright",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       bty = "n")

Postoje i drugi pristupi modeliranja jezgre-periferije. Važno je razumjeti da će takav model u svakom slučaju biti rezultat metodoloških odabira, pri čemu ne postoji univerzalni recept za odabir. Zbog toga način utvrđivanja jezgre-periferije treba uvijek navesti i obrazložiti. Nastavljamo s jednostavnim prikazom za tehnološku mrežu, gdje je jezgra definirana putem trećeg kvartila coreness vrijednosti čvorova.

# prag jezgre: npr. treći kvartil coreness (jednostavno) - heuristički prag (a ne formalni Borgatti–Everett model
thr_tech  <- quantile(V(g_tech)$core, 0.75, na.rm = TRUE)
V(g_tech)$cp <- ifelse(V(g_tech)$core >= thr_tech, "jezgra", "periferija")
cols <- c("periferija" = "#f8f5ef",
          "jezgra"     = "#1f3a93")

plot(g_tech,
     layout = layout_with_fr,
     vertex.size = 6,
     vertex.color = cols[V(g_tech)$cp],
     vertex.label = NA,
     main = "Jezgra i periferija (na temelju coreness)")

legend("topright",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = 1.5,
       bty = "n")

Detekcija zajednica

Zajednice (communities) predstavljaju mezostrukturnu razinu mreže: skupine čvorova koje su međusobno gušće povezane nego s ostatkom mreže. Dok gustoća i connectedness opisuju globalnu strukturu, a klike i k-core lokalnu koheziju, detekcija zajednica nastoji identificirati organizacijske blokove mreže.

U mnogim realnim sustavima (društvenim, tehnološkim, biološkim) zajednice odgovaraju funkcionalnim cjelinama: odjelima u organizaciji, tematskim modulima u znanstvenoj mreži ili ovisnim paketima u softverskom ekosustavu.

U standardnom Newman–Girvan obliku modularnost particije glasi

\[ Q = \frac{1}{2m} \sum_{i}\sum_{j} \left(A_{ij} - \frac{k_i k_j}{2m}\right)\delta(c_i,c_j), \]

gdje je:

\(m\) broj bridova u mreži,
\(A_{ij}\) element matrice susjedstva,
\(k_i\) stupanj čvora \(i\),
\(\delta(c_i,c_j)=1\) ako su čvorovi \(i\) i \(j\) u istoj zajednici, inače 0.

Modularnost uspoređuje stvarni broj veza unutar zajednica s očekivanim brojem veza u nul-modelu koji čuva distribuciju stupnjeva.

Ako je \(Q\) visok (tipično 0.3–0.7), zajednice su izraženije nego što bi se očekivalo slučajno. Ako je \(Q\) blizu 0, struktura zajednica nije izraženija od slučajnog modela.

U analizi mreža važno je razlikovati tri povezana, ali konceptualno različita pojma: zajednica, klaster i modularnost.

Zajednica je strukturni obrazac u mreži: skup čvorova koji su međusobno gušće povezani nego s ostatkom mreže.

To je ontološki pojam — opisuje što postoji u strukturi mreže.

Drugim riječima, zajednice su podskupine čvorova s relativno visokom unutarnjom gustoćom i relativno niskom vanjskom povezanošću.

Klaster je rezultat algoritma grupiranja. U kontekstu mreža, klasteriranje je postupak kojim se čvorovi dijele u skupine prema nekom kriteriju (npr. gustoća veza, sličnost susjedstva, slučajne šetnje itd.).

Drugim riječima:

klaster je algoritamski dobivena grupa,
zajednica je strukturna interpretacija te grupe.

U idealnom slučaju, klasteri koje algoritam pronađe odgovaraju stvarnim zajednicama u mreži — ali to nije zajamčeno.

Modularnost je mjera kvalitete određene particije mreže.

Formalno, modularnost:

uspoređuje stvarni broj veza unutar grupa s očekivanim brojem veza u nul-modelu koji čuva distribuciju stupnjeva,
kvantificira koliko je podjela na zajednice izraženija od slučajnog rasporeda.

Ključno:

modularnost nije svojstvo mreže same po sebi,
modularnost je svojstvo konkretne particije čvorova.

Zato vrijedi:

Ista mreža može imati različitu modularnost ovisno o tome kako je podijeljena.

Logički slijed je sljedeći:

primijenimo algoritam klasteriranja
dobijemo particiju (klastere)
izračunamo modularnost te particije
ako je modularnost visoka, interpretiramo klastere kao strukturne zajednice

Pojednostavljeno:

algoritam → daje klastere
modularnost → procjenjuje kvalitetu
zajednice → interpretacija dobivenih klastera

Najčešći algoritmi za detekciju zajednica

U praksi, zajednice ne određujemo ručno, već algoritamski. Najčešće korišteni algoritmi u igraph-u su:

Louvain metoda (`cluster_louvain`)

heuristički maksimizira modularnost,
radi hijerarhijski (agregira čvorove u super-čvorove),
vrlo brza i pogodna za veće mreže,
daje particiju bez preklapanja.

To je danas najčešće korišteni algoritam zbog brzine i stabilnosti.

Girvan–Newman (`cluster_edge_betweenness`)

uklanja bridove s najvećom betweenness centralnošću,
postupno razdvaja mrežu na komponente,
računski zahtjevniji,
intuitivno povezan s pojmom mostova.

Ovaj algoritam je konceptualno važan jer povezuje zajednice s uklanjanjem mostova.

Walktrap (`cluster_walktrap`)

temelji se na slučajnim šetnjama,
ideja: kratke šetnje ostaju unutar zajednica,
dobar za srednje velike mreže.

Fast Greedy (`cluster_fast_greedy`)

također maksimizira modularnost,
radi samo za neusmjerene mreže,
hijerarhijski pristup.

Primjer primjene

comm_soc  <- cluster_louvain(g_soc)
comm_tech <- cluster_louvain(as_undirected(g_tech))

modularity(comm_soc)

## [1] 0.4345215

modularity(comm_tech)

## [1] 0.3687615

sizes(comm_soc)

## Community sizes
##  1  2  3 
## 11  5 18

sizes(comm_tech)

## Community sizes
##  1  2  3  4  5 
## 14 12 22 16 20

Vrijednost modularnosti govori nam koliko je detektirana struktura zajednica izražena u odnosu na slučajni model sa zadanom distribucijom stupnjeva.

Ako je, primjerice:

\(Q_{soc}\) umjereno visok → društvena mreža ima jasnu grupnu strukturu (što je očekivano),
\(Q_{tech}\) također visok → tehnološka mreža ima modularnu organizaciju (npr. tematski ili funkcionalno povezane skupine paketa).

# Sažetak particije (Louvain)
c(
  n_comm_soc  = length(sizes(comm_soc)),
  Q_soc       = modularity(comm_soc),
  min_soc     = min(sizes(comm_soc)),
  median_soc  = median(sizes(comm_soc)),
  max_soc     = max(sizes(comm_soc))
)

## n_comm_soc      Q_soc    min_soc median_soc    max_soc 
##  3.0000000  0.4345215  5.0000000 11.0000000 18.0000000

c(
  n_comm_tech = length(sizes(comm_tech)),
  Q_tech      = modularity(comm_tech),
  min_tech    = min(sizes(comm_tech)),
  median_tech = median(sizes(comm_tech)),
  max_tech    = max(sizes(comm_tech))
)

## n_comm_tech      Q_tech    min_tech median_tech    max_tech 
##   5.0000000   0.3687615  12.0000000  16.0000000  22.0000000

Primjena Louvain algoritma na društvenu mrežu (karate klub) rezultira s tri zajednice veličina 18, 11 i 5 čvorova. Vrijednost modularnosti iznosi \(Q_{soc}=0.435\), što se u literaturi obično interpretira kao umjereno izražena modularna struktura. To znači da su veze unutar detektiranih zajednica osjetno gušće nego što bi se očekivalo u nul-modelu koji čuva distribuciju stupnjeva, ali mreža nije ekstremno segmentirana.

Struktura veličina zajednica dodatno pojašnjava obrazac - jedna dominantna zajednica (18 čvorova) i dvije manje (11 i 5). Takva raspodjela sugerira postojanje stabilne jezgre ili većinskog bloka, uz dvije podskupine koje su strukturno diferencirane, ali i dalje integrirane u ukupnu mrežu. U kontekstu društvene mreže to je očekivano, jer društvene skupine često imaju nekoliko relativno jasno diferenciranih podgrupa, ali nisu fragmentirane u velik broj malih klastera.

Za tehnološku mrežu (mreža ovisnosti R paketa) Louvain metoda pronalazi šest zajednica veličina 22, 19, 19, 16, 5 i 3 čvora. Modularnost iznosi \(Q_{tech}=0.381\), što je nešto niže od društvene mreže, ali i dalje ukazuje na izraženu modularnu strukturu. Veći broj zajednica i relativno uravnotežene veličine srednjih klastera (16–22 čvora) sugeriraju modularnu organizaciju sustava, tipičnu za tehnološke mreže u kojima se paketi grupiraju oko funkcionalnih cjelina ili tematskih područja.

Usporedba dviju mreža pokazuje zanimljivu razliku: društvena mreža ima manji broj, ali relativno jasnije odvojenih zajednica (viši \(Q\)), dok tehnološka mreža pokazuje finiju modularnu razdiobu s većim brojem funkcionalnih blokova, ali nešto slabijom diferencijacijom između njih. To je u skladu s očekivanjima: društvene mreže često imaju snažne unutarnje kohezivne podskupine, dok tehnološki sustavi pokazuju funkcionalnu modularnost bez izrazite polarizacije.

Usporedba s random grafom ilustrira razliku:

comm_rg <- cluster_louvain(rg)

modularity(comm_rg)

## [1] 0.7547107

sizes(comm_rg)

## Community sizes
##  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 
##  1  1  1  8  7  2  1  1  6  4  1  9  2  2  1  2  1  5  6  1  1  1  1  1  1  1 
## 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 
##  1  3  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  2  1  1  1  1  1  2  1 
## 53 54 
##  1  1

Ovdje vidimo da se svaki izolirani čvor tretira kao zajednica. Zbog toga Louvain metoda vraća vrlo visoku modularnost (\(Q_{rg}=0.755\)). Ovdje dolazimo do važnog metodološkog upozorenja: visoka modularnost u fragmentiranoj mreži ne znači nužno postojanje smislene zajedničke strukture. Budući da random graf sadrži velik broj komponenti i izoliranih čvorova, algoritam svaku komponentu (a osobito izolirane čvorove) tretira kao zasebnu zajednicu. Time se broj veza unutar grupe relativno povećava u odnosu na nul-model, što rezultira visokom vrijednošću \(Q\).

Ovaj primjer jasno pokazuje da modularnost treba interpretirati u kontekstu globalne strukture mreže. Ako je mreža snažno fragmentirana, visoka modularnost može biti posljedica razdvojenosti komponenti, a ne stvarne mezostrukturne organizacije. Zbog toga je u takvim slučajevima opravdano analizirati samo najveću (divovsku) komponentu, gdje zajednice imaju strukturni smisao.

Dakle, uočavamo da nije realno, ni smisleno, izolirane čvorove promatrati kao zajednice. U sljedećem koraku, izdvajamo najveću povezanu komponentu, a potom ponavljamo detekciju zajednica samo na toj komponenti.

# identificiramo komponente
comp_rg <- igraph::components(rg)
# pronalazimo najveću komponentu
giant_id <- which.max(comp_rg$csize)
# izdvajamo čvorove te komponente
giant_nodes <- V(rg)[comp_rg$membership == giant_id]
# inducirani podgraf
rg_giant <- induced_subgraph(rg, giant_nodes)

# Detekcija zajednica
comm_rg_giant <- cluster_louvain(rg_giant)
modularity(comm_rg_giant)

## [1] 0.6000693

sizes(comm_rg_giant)

## Community sizes
## 1 2 3 4 5 6 
## 7 9 5 4 4 5

c(
  n_comm_rg = length(sizes(comm_rg_giant)),
  Q_rg      = modularity(comm_rg_giant),
  min_rg    = min(sizes(comm_rg_giant)),
  median_rg = median(sizes(comm_rg_giant)),
  max_rg    = max(sizes(comm_rg_giant))
)

## n_comm_rg      Q_rg    min_rg median_rg    max_rg 
## 6.0000000 0.6000693 4.0000000 5.0000000 9.0000000

Nakon izdvajanja najveće (divovske) komponente random grafa i ponovne primjene Louvain algoritma dobivamo šest zajednica veličina 7, 7, 7, 5, 4 i 4 čvora. Modularnost iznosi \(Q_{rg}=0.605\), što je i dalje relativno visoka vrijednost.

Za razliku od analize cijelog random grafa (gdje je visoka modularnost bila artefakt fragmentacije i velikog broja izoliranih čvorova), ovdje analiziramo koherentnu komponentu bez izoliranih elemenata. Ipak, treba naglasiti da random graf nema ugrađeni mehanizam formiranja zajednica. Stoga detektirane zajednice nisu rezultat stvarne funkcionalne ili društvene organizacije, nego posljedica stohastičke raspodjele bridova.

Vrijednost modularnosti od približno 0.60 pokazuje da čak i u slučajno generiranim mrežama mogu nastati relativno kompaktne podstrukture. To ilustrira važnu metodološku pouku:

Postojanje zajednica u algoritamskom smislu ne znači nužno postojanje smislene, teorijski utemeljene niti praktično relevantne strukture.

Drugim riječima, algoritam će praktički uvijek pronaći particiju — pitanje je koliko je ona interpretativno relevantna.

Vidimo da je modularnost random grafa čak viša od empirijskih mreža. To na prvi pogled može djelovati paradoksalno, ali je u skladu s poznatim svojstvima modularnosti: ona mjeri odstupanje od nul-modela koji čuva stupnjeve, a u malim i srednje velikim mrežama (osobito kad promatramo samo najveću komponentu) slučajne fluktuacije mogu proizvesti relativno visoke vrijednosti \(Q\).

Usporedba modularnosti ova tri grafa ukazuje na dvije ključne metodološke implikacije:

modularnost treba interpretirati u kontekstu tipa mreže i njezinih mehanizama nastanka,
usporedba s nul-modelom ili random mrežom je korisna kako bismo procijenili je li opažena modularna struktura doista „posebna”.

Vizualizacija i interpretacija zajednica

comm_soc1  <- cluster_louvain(g_soc)
comm_soc2  <- cluster_edge_betweenness(g_soc)
comm_soc3  <- cluster_walktrap(g_soc)
comm_soc4  <- cluster_fast_greedy(g_soc)

par(mfrow=c(2,2))
set.seed(1)
lay_s = layout_with_fr(g_soc)

V(g_soc)$comm <- membership(comm_soc1)

plot(g_soc,
     layout = lay_s,
     vertex.color = V(g_soc)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom Louvain klasteringa \n društvena mreža")

V(g_soc)$comm <- membership(comm_soc2)

plot(g_soc,
     layout = lay_s,
     vertex.color = V(g_soc)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom edge betweenness klasteringa \n društvena mreža")

V(g_soc)$comm <- membership(comm_soc3)

plot(g_soc,
     layout = lay_s,
     vertex.color = V(g_soc)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom walktrap klasteringa \n društvena mreža")

V(g_soc)$comm <- membership(comm_soc4)

plot(g_soc,
     layout = lay_s,
     vertex.color = V(g_soc)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom fast greedy klasteringa \n društvena mreža")

Vizualizacije društvene mreže pokazuju da svi algoritmi identificiraju relativno sličan makro-obrazac: mreža se dijeli na nekoliko jasno diferenciranih blokova koji su prostorno grupirani i međusobno slabije povezani. Svi algoritmi daju prilično sličnu identifikaciju zajednica, uz nekoliko razlika po pitanju pojedinačnih čvorova. Girvan–Newman metoda (edge betweenness) često daje nešto finiju segmentaciju jer postupno uklanja mostove.

Ključna interpretativna poruka je da se u društvenoj mreži zajednice javljaju kao kompaktni, prostorno koherentni klasteri, što upućuje na stvarnu mezostrukturnu organizaciju. Vizualna separacija zajednica podudara se s teorijskim očekivanjima za ovu mrežu.

Sljedeća razina interpretacije je pridavanje znanstvene ili praktične vrijednosti kroz pronalaženje smisla (mehanizma nastanka i/ili funkcionalne uloge) utvrđenih zajednica. U karate mreži problem je sociološki jasan: mreža je mala, odnosi su osobni, a zajednice se najčešće mogu čitati kao krugovi intenzivnijih interakcija koji reflektiraju

društvene podgrupe,
neformalno vodstvo i
linije potencijalnog konflikta ili frakcija.

U tom smislu, modularnost \(Q \approx 0.43\) i tri zajednice uz fast greedy (18, 11, 5) sugeriraju umjereno izraženu mezostrukturu: postoji više od jednog kohezivnog bloka, ali mreža nije „tvrdo” podijeljena na potpuno odvojene tabore.

U Zacharyjevom karate klubu poznat je konačni rezultat, tj. podjela kluba na dva, na frakciju oko Mr. Hi-a i frakciju oko Johna A. Naš rezultat s tri zajednice (18, 11, 5) može se interpretirati kao da algoritam ne “vidi” samo konačan ishod, nego i mezostrukturu interakcija prije rascjepa. Treća zajednica možda može označavati skupinu članova koji su bili strukturno između dviju glavnih frakcija - ili su imali veze prema obje strane, ili su bili periferni/ambivalentni, ili su činili “tampon” koji je povećavao koheziju mreže prije nego što se polarizacija stabilizirala. To je u skladu s idejom da zajednice hvataju gustoću veza, pa mogu izdvojiti “posrednički blok” koji se u kasnijoj dinamici može preliti prema jednoj od dviju strana.

Da bi ova interpretacija bila konkretna i provjerljiva, najjednostavnije je napraviti dvije stvari:

usporediti fast greedy zajednice s poznatom frakcijom (Mr. Hi vs John A) i
provjeriti je li treća zajednica doista “držala klub na okupu” u smislu da ima relativno više veza prema obje strane ili da sadrži brokere (visok betweenness / nizak constraint) koji povezuju frakcije.

tab <- table(zajednica = V(g_soc)$comm, frakcija = V(g_soc)$Faction)
tab

##          frakcija
## zajednica  1  2
##         1  0 18
##         2 11  0
##         3  5  0

Zajednica 1 sastoji se od 18 čvorova i svi pripadaju frakciji 2 (John A), dok zajednice 2 (11 čvorova) i 3 (5 čvorova) u potpunosti pripadaju frakciji 1 (Mr. Hi).

# vanjske veze po zajednici: koliko bridova izlazi iz zajednice u druge zajednice
E(g_soc)$inter <- (V(g_soc)[ends(g_soc, E(g_soc))[,1]]$comm != V(g_soc)[ends(g_soc, E(g_soc))[,2]]$comm)

# broj "cross-community" bridova po zajednici (grubo: pripišemo brid zajednici izvorišnog čvora, redosljedno)
from_comm <- V(g_soc)[ends(g_soc, E(g_soc))[,1]]$comm
cross_by_comm <- tapply(E(g_soc)$inter, from_comm, sum)

# normalizacija: udio vanjskih veza u odnosu na sve veze iz zajednice
deg_by_comm <- tapply(igraph::degree(g_soc), V(g_soc)$comm, sum)
ratio_cross <- cross_by_comm / deg_by_comm

cross_by_comm

##  1  2  3 
##  0 14  0

ratio_cross

##         1         2         3 
## 0.0000000 0.2333333 0.0000000

Izračun vanjskih veza dodatno pojašnjava taj nalaz. Zajednice 1 i 3 u ovom rezultatu imaju nula cross-community veza, dok zajednica 2 ima 14 takvih veza i udio od oko 0.233. U interpretaciji to implicira da je zajednica 2 strukturno „otvorenija” prema ostatku mreže (odnosno prema drugim zajednicama), dok su zajednice 1 i 3 relativno zatvorene.

plot(g_soc,
     layout = lay_s,
     vertex.color = V(g_soc)$comm,
     vertex.size = V(g_soc)$Faction*10,
     main = "Zajednice - primjenom fast greedy klasteringa \n veličina čvora - frakcija \n Karate klub mreža")

Na slici se vidi sljedeće:

Najveća zajednica (18 čvorova) koncentrirana je oko John A (A) i jasno čini kompaktan, gusto povezan blok.
Srednja zajednica (11 čvorova) okupljena je oko Mr. Hi (H).
Najmanja zajednica (5 čvorova) nalazi se unutar frakcije Mr. Hi, ali je strukturno izdvojena kao poseban blok.

To je izuzetno zanimljivo jer:

fast greedy algoritam (kao ni drugi algoritmi) ne zna ništa o stvarnoj podjeli kluba — optimizira modularnost;
unatoč tome, prepoznaje strukturu koja gotovo u potpunosti preslikava kasniju stvarnu podjelu;
dodatno otkriva i mezostrukturni sloj unutar frakcije Mr. Hi-a.

Zajednice ne moraju nužno odgovarati konačnim organizacijskim podjelama, nego odražavaju realnu gustoću interakcija u trenutku mjerenja.

Moguće interpretacije najmanje zajednice:

jezgra bliskih članova unutar Mr. Hi frakcije, koji nemaju veza prema ostatku Mr. Hi frakcije
strukturno gušća podgrupa (npr. najaktivniji članovi).

S obzirom da se radi o članovima koji nisu povezani niti s drugim članovima iz frakcije Mr. Hi-ja, niti Johna A, jedna od inicijalno razmatranih interpretacija - da se radi o skupini koja je prije raskola držala mrežu kohezivnom - očito nije ispravna i odbacujemo ju. Temeljem ovih uvida vidimo da se značenje treće zajednice očituje u postojanju mezostrukturnog sloja unutar Mr. Hi frakcije, kojeg čine članovi koji su međusobno povezani, ali nemaju veza prema drugim članovima ni svoje (osim Mr. Hi-ja), niti druge frakcije.

comm_tech1  <- cluster_louvain(as_undirected(g_tech)) # algoritam ne podržava usmjereni graf
comm_tech2  <- cluster_edge_betweenness(g_tech)
comm_tech3  <- cluster_walktrap(g_tech)
comm_tech4  <- cluster_fast_greedy(as_undirected(g_tech))  # algoritam ne podržava usmjereni graf

par(mfrow=c(2,2))
set.seed(1)
lay_t = layout_with_fr(g_tech)

V(g_tech)$comm <- membership(comm_tech1)

plot(g_tech,
     layout = lay_t,
     vertex.color = V(g_tech)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom Louvain klasteringa \n tehnološka mreža \n neusmjereni graf - radi usporedbe")

V(g_tech)$comm <- membership(comm_tech2)

plot(g_tech,
     layout = lay_t,
     vertex.color = V(g_tech)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom edge betweenness klasteringa \n tehnološka mreža")

V(g_tech)$comm <- membership(comm_tech3)

plot(g_tech,
     layout = lay_t,
     vertex.color = V(g_tech)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom walktrap klasteringa \n tehnološka mreža")

V(g_tech)$comm_fg <- membership(comm_tech4)

plot(g_tech,
     layout = lay_t,
     vertex.color = V(g_tech)$comm_fg,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom fast greedy klasteringa \n tehnološka mreža \n neusmjereni graf - radi usporedbe")

Kod tehnološke mreže uočava se veći broj zajednica i manje jasne granice između njih. Louvain i Fast Greedy metoda ponovno daju slične rezultate, dok Walktrap generira nešto malo drugačije granice modula. Vizualno se može primijetiti da zajednice nisu tako „kompaktne” kao u društvenoj mreži; umjesto jasno odvojenih blokova, uočava se više preklapanja u prostoru layouta. To je tipično za tehnološke sustave gdje su funkcionalni moduli međusobno povezani preko ovisnosti, pa granice nisu potpuno čiste.

Kod cluster_edge_betweenness() često se dobije vizualni „kaos” iz tri razloga koji su vezani uz to što algoritam optimizira i kako se layout crta. Prvo, edge-betweenness algoritam ne traži „kompaktne oblake” čvorova, nego iterativno uklanja bridove s najvećom edge betweenness vrijednosti (mostove) i tako gradi hijerarhiju rezova. To znači da su dobivene zajednice često definirane „rezovima” mreže, a ne lokalnom prostornom blizinom u force-directed layoutu. Drugo, layout_with_fr minimizira globalnu energiju rasporeda i može dovesti različite zajednice u međusobno preklapanje ako postoji mnogo među-zajedničkih veza ili ako su zajednice „isprepletene” kroz nekoliko mostova. Treće, za tehnološku mrežu dodatno otežava stvar to što je izvorno usmjerena, a mi u jednom dijelu algoritama radimo na as_undirected(g_tech), a u edge-betweenness pozivamo g_tech i ta nekonzistentnost može biti jedan od razloga nepreglednog prikaza.

Općenito, interpretacija vizualizacija zajednica u tehnološkoj mreži potvrđuje raniji kvantitativni nalaz: modularnost je nešto niža nego kod društvene mreže, a struktura je modularna, ali ne izrazito segmentirana.

split(names(V(g_tech)), membership(comm_tech3))

## $`1`
##  [1] "igraph"      "ggraph"      "tidygraph"   "cli"         "lifecycle"  
##  [6] "pkgconfig"   "rlang"       "vctrs"       "ggplot2"     "dplyr"      
## [11] "ggforce"     "grid"        "scales"      "ggrepel"     "viridis"    
## [16] "withr"       "memoise"     "pillar"      "tibble"      "tidyr"      
## [21] "glue"        "gtable"      "isoband"     "S7"          "generics"   
## [26] "tidyselect"  "tweenr"      "systemfonts" "gridExtra"   "purrr"      
## [31] "stringr"     "jsonlite"    "stringi"     "magrittr"    "utils"      
## [36] "cpp11"       "R6"          "polyclip"    "farver"      "viridisLite"
## 
## $`2`
## [1] "knitr"    "highr"    "xfun"     "evaluate" "yaml"    
## 
## $`3`
## [1] "cachem"  "fastmap"
## 
## $`4`
##  [1] "sna"            "statnet"        "methods"        "statnet.common"
##  [5] "network"        "tergm"          "ergm.count"     "tsna"          
##  [9] "ergm"           "networkDynamic" "coda"           "parallel"      
## [13] "ergm.multi"     "Rdpack"         "trust"          "rle"           
## [17] "networkLite"    "rbibutils"      "tools"          "lpSolveAPI"    
## 
## $`5`
##  [1] "graphics"      "Matrix"        "stats"         "MASS"         
##  [5] "graphlayouts"  "lattice"       "labeling"      "Rcpp"         
##  [9] "RcppArmadillo" "robustbase"    "nlme"          "DEoptimR"     
## [13] "grDevices"    
## 
## $`6`
## [1] "RColorBrewer"
## 
## $`7`
## [1] "utf8"
## 
## $`8`
## [1] "base64enc"
## 
## $`9`
## [1] "compiler"

Primjenom walktrap algoritma na usmjerenoj mreži ovisnosti R paketa dobivena je particija na devet zajednica koje odražavaju funkcionalnu arhitekturu sustava. Budući da se walktrap temelji na ideji kratkih slučajnih šetnji, zajednice nastaju ondje gdje se ovisnosti zatvaraju u relativno kohezivne podsustave. Drugim riječima, algoritam grupira pakete između kojih je “zadržavanje” unutar istog dijela mreže vjerojatno, što u tehnološkom kontekstu znači visoku funkcionalnu integraciju.

Najveća zajednica obuhvaća pakete poput igraph, ggraph, tidygraph, ggplot2, dplyr, tidyr, tibble, purrr, stringr, rlang, vctrs, scales, ggforce, ggrepel, viridis, grid, systemfonts, gtable, isoband, R6, cpp11, magrittr i druge. Ovdje se jasno prepoznaje integracijski sloj analitičko-vizualizacijskog ekosustava. Riječ je o radnom modulu u kojem se podaci transformiraju, modeliraju i vizualiziraju, a mnogi paketi dijele zajedničku dizajnersku filozofiju i međusobno su snažno ovisni. Zajednica nije “temelj sustava”, nego operativna jezgra primjene – mjesto gdje se većina analitičkih aktivnosti odvija.

Druga zajednica okuplja knitr, highr, xfun, evaluate i yaml, što čini jasno diferencirani dokumentacijsko-reproducibilni podsustav. Ovisnosti su ovdje relativno zatvorene unutar RMarkdown/ knitr ekosustava, a veze prema ostatku sustava su funkcionalne, ali ograničene. Modularnost u ovom slučaju prepoznaje dokumentaciju i generiranje izvještaja kao zaseban, ali integriran sloj.

Treća zajednica sastoji se od cachem i fastmap, malog, ali koherentnog modula za upravljanje memorijskim keširanjem. Njihova izdvojenost ilustrira kako algoritam može identificirati mikro-module – funkcionalno specifične komponente s uskim, ali jasnim obrascem međusobnih ovisnosti.

Četvrta zajednica obuhvaća pakete sna, statnet, network, ergm, tergm, ergm.count, ergm.multi, tsna, networkDynamic, networkLite, coda, lpSolveAPI, trust, parallel, methods, tools, Rdpack i rbibutils. Ovdje je riječ o specijaliziranom ekosustavu usmjerenom na mrežno modeliranje i napredne statističke metode. Ovisnosti su guste i višesmjerne unutar tog bloka, a funkcionalni putovi često ostaju unutar iste metodološke domene. Ova zajednica predstavlja profesionalno-specijalizirani podsustav unutar šireg analitičkog okvira.

Peta zajednica uključuje graphics, Matrix, stats, MASS, graphlayouts, lattice, labeling, Rcpp, RcppArmadillo, robustbase, nlme, DEoptimR i grDevices. Riječ je o baznoj statističko-numeričkoj infrastrukturi sustava. Za razliku od analitičkog integracijskog sloja prve zajednice, ovdje se nalaze temeljne matematičke i numeričke komponente na kojima počivaju viši funkcionalni moduli. Walktrap ih grupira jer predstavljaju česta odredišta ovisnosti i dijele zajedničku infrastrukturnu logiku.

Preostale manje zajednice – RColorBrewer, utf8, base64enc i compiler – predstavljaju periferne tehničke module. Njihova izdvojenost ne znači nevažnost, nego specifičan i relativno ograničen obrazac integracije unutar sustava.

Iz ove podjele na zajednice možemo zaključiti da mreža R paketa pokazuje slojevitu i modularnu arhitekturu. Uočavaju se temeljni infrastrukturni sloj, specijalizirani modul za modeliranje, integracijski analitičko-vizualizacijski sloj, dokumentacijski podsustav te niz manjih tehničkih komponenti. Modularnost u ovom kontekstu ne signalizira konflikt ili polarizaciju, kao u društvenoj mreži karate kluba, nego funkcionalnu diferencijaciju i dizajnersku racionalnost sustava. Ista matematička konstrukcija zajednica tako u društvenoj mreži odražava socijalne frakcije, dok u tehnološkoj mreži otkriva arhitektonske module – što naglašava da interpretacija mrežnih mjera uvijek mora biti kontekstualno utemeljena.

comm_r1  <- cluster_louvain(rg_giant)
comm_r2  <- cluster_edge_betweenness(rg_giant)
comm_r3  <- cluster_walktrap(rg_giant)
comm_r4  <- cluster_fast_greedy(rg_giant)

par(mfrow=c(2,2))
set.seed(1)
lay_r = layout_with_fr(rg_giant)

V(rg_giant)$comm <- membership(comm_r1)

plot(rg_giant,
     layout = lay_r,
     vertex.color = V(rg_giant)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom Louvain klasteringa \n najveća komponenta random grafa")

V(rg_giant)$comm <- membership(comm_r2)

plot(rg_giant,
     layout = lay_r,
     vertex.color = V(rg_giant)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom edge betweenness klasteringa \n najveća komponenta random grafa")

V(rg_giant)$comm <- membership(comm_r3)

plot(rg_giant,
     layout = lay_r,
     vertex.color = V(rg_giant)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom walktrap klasteringa \n najveća komponenta random grafa")

V(rg_giant)$comm <- membership(comm_r4)

plot(rg_giant,
     layout = lay_r,
     vertex.color = V(rg_giant)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Zajednice - primjenom fast greedy klasteringa \n najveća komponenta random grafa")

Napomene:

Modularnost pati od tzv. resolution limit problema — može propustiti male zajednice.
Algoritmi su heuristički; različiti algoritmi mogu dati različite particije.
Vrijednost \(Q\) treba interpretirati relativno (npr. u usporedbi s nul-modelom).

Kod random grafa vizualizacije pokazuju da algoritmi pronalaze zajednice koje su prostorno raspoređene, ali bez jasne strukturne logike. Granice između zajednica često djeluju arbitrarno i ne prate intuitivne „blokove”. Razlike među algoritmima mogu biti izraženije nego kod empirijskih mreža (iako to nije slučaj u ovom podgrafu). U odsutnosti stvarne mezostrukture, heuristike mogu različito reagirati na slučajne fluktuacije u raspodjeli bridova. Ovdje stajemo s interpretacijom, jer se radi o slučajnom grafu, čijim čvorovima i vezama nije pripisan nikakav funkcionalni, operativni ili društveno relevantan smisao s kojim bismo mogli povzati utvrđene zajednice.

Zajedno, ovi primjeri ilustriraju važnu metodološku pouku:

Algoritam će uvijek proizvesti zajednice, ali njihova vizualna i strukturna koherentnost ovisi o stvarnoj organizaciji mreže.

Vizualizacije pokazuju tri ključne razlike među algoritmima:

Modularity-based algoritmi (Louvain, Fast Greedy) daju stabilnije i globalno optimizirane particije.
Edge betweenness naglašava mostove i često rezultira finijom segmentacijom (tj. većim brojem zajednica).
Walktrap reflektira lokalnu gustoću putem slučajnih šetnji i može drugačije tretirati rubne čvorove.

Nakon što identificiramo zajednice, prirodno se postavlja pitanje:

Tko povezuje zajednice?
Koji čvorovi djeluju kao mostovi?

Ta pitanja vode nas ka konceptu strukturnih rupa i brokerskih pozicija.

Strukturne rupe

Strukturne rupe (structural holes) označavaju „praznine” između grupa ili dijelova mreže: kada između dviju skupina nema izravnih veza, čvor koji ih povezuje dobiva stratešku brokersku poziciju. Takav čvor može kontrolirati protok informacija, posredovati između različitih krugova i kombinirati informacije iz inače odvojenih izvora. U Jacksonovoj sistematizaciji, strukturne rupe i slabe veze ističu se kao tipične regularnosti društvenih i ekonomskih mreža, osobito relevantne za difuziju informacija, inovacija i utjecaja.

Jedna od standardnih mjera povezana sa strukturnim rupama je Burtovo obraničenje (Burt constraint, u igraph-u: constraint()), koje kvantificira koliko je čvor „zatvoren” unutar redundantnog susjedstva. Pritom niže ograničenje tipično znači da je čvor izraženiji most između inače slabije povezanih susjedstava. Interpretacija je izravno vezana uz „bridging” ponašanje.

Neka je \(p_{ij}\) udio investicije čvora \(i\) u odnos s čvorom \(j\) (normalizirana težina veze), i neka vrijedi \(\sum_j p_{ij}=1\). Tada se constraint čvora \(i\) može zapisati kao:

\[ C_i = \sum_{j} \left( p_{ij} + \sum_{q} p_{iq}p_{qj} \right)^2. \]

Gdje je:

\(p_{ij}\) — izravna „ulaganja” u vezu \(i \rightarrow j\) (normalizirana po susjedstvu),
\(\sum_q p_{iq}p_{qj}\) — neizravna veza prema \(j\) preko zajedničkih susjeda \(q\) (redundancija),
kvadrat i suma po \(j\) penaliziraju slučajeve gdje se isti kontakti preklapaju kroz više kanala.

Interpretacija. Niži \(C_i\) tipično znači da je čvor \(i\) manje „ograničen” redundantnim susjedstvom, tj. ima više nepreklapajućih kontakata i izraženiju brokersku (bridging) poziciju. Viši \(C_i\) ukazuje na zatvoreno, redundantno susjedstvo (više „closure” nego „bridging”).

Napomena. U usmjerenim mrežama potrebno je jasno odrediti što znači „susjedstvo”. U ovoj lekciji, radi jednostavnije interpretacije, brokerske pozicije u tehnološkoj mreži računamo nad njezinom neusmjerenom projekcijom.

# društvena mreža
V(g_soc)$constraint <- constraint(g_soc)

# tehnološka mreža: za interpretaciju strukturnih rupa koristimo neusmjereni prikaz
g_tech_u <- as_undirected(g_tech, mode = "collapse")
V(g_tech_u)$constraint <- constraint(g_tech_u)

# random graf (po želji: cijeli ili giant component)
V(rg)$constraint <- constraint(rg)

summary(V(g_soc)$constraint)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.1863  0.3514  0.4996  0.4992  0.6380  1.0000

summary(V(g_tech)$constraint)

## Length  Class   Mode 
##      0   NULL   NULL

summary(V(rg)$constraint)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.2000  0.5000  0.5000  0.6839  1.0000  1.0000      40

# kandidati za "bridging" (najniži constraint)
head(sort(V(g_soc)$constraint), 10)

##  [1] 0.1862873 0.1906235 0.2556538 0.2582561 0.2754988 0.3127740 0.3222101
##  [8] 0.3344148 0.3409020 0.3827486

head(sort(V(g_tech)$constraint), 10)

## NULL

head(sort(V(rg)$constraint), 10)

##  [1] 0.2000000 0.2500000 0.2500000 0.3333333 0.3333333 0.3333333 0.3333333
##  [8] 0.3333333 0.3333333 0.3333333

U društvenoj mreži, čvorovi s najnižim constraint vrijednostima tipično su oni koji povezuju različite krugove interakcije (npr. članovi koji sudjeluju u aktivnostima više podskupina). Njihovo susjedstvo nije redundantno: njihovi kontakti nisu međusobno snažno povezani, pa čvor ima relativno veći potencijal posredovanja. U tehnološkoj mreži, nizak constraint može signalizirati pakete koji povezuju funkcionalno različite module (npr. infrastrukturni paketi koji se pojavljuju u više “pod-ekosustava”), što je analogija brokerskoj ulozi u društvenim mrežama.

Važno je naglasiti da se constraint ne interpretira kao „snaga” čvora u smislu centralnosti, nego kao strukturna pozicija: čvor može imati umjeren stupanj, ali vrlo nizak constraint ako mu susjedstvo spaja slabo povezane dijelove.

# odaberemo top-k brokera
brokers_soc <- sort(V(g_soc)$constraint)[1:5]
V(g_soc)$broker <- ifelse(V(g_soc)$constraint %in% brokers_soc, "broker", "ostalo")

cols <- c("ostalo" = "#d9c6a5", "broker" = "#8c6f3f")

plot(g_soc,
     layout = lay_s,
     vertex.color = cols[V(g_soc)$broker],
     vertex.size  = ifelse(V(g_soc)$broker == "broker", 25, 5),
     vertex.label = ifelse(V(g_soc)$broker == "broker", V(g_soc)$name, NA),
     vertex.label.cex = 0.7,
     vertex.label.color = "white",
     main = "Strukturne rupe: brokeri (najniži constraint) – društvena mreža")

legend("topleft",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = c(1.2, 1.6),
       bty = "n")

Ovdje se u top 5 brokera pojavljuju: A i H (očekivano), Actor 3, Actor 32 i Actor 33. Dakle, u društvenoj mreži karate kluba, brokeri (A, H, Actor 3, 32 i 33) imaju dvostruku funkciju: oni nisu samo lideri ili centralni akteri, nego povezuju dijelove mreže koji bi bez njih bili slabije povezani. Uklanjanje takvih čvorova može ubrzati polarizaciju i dovesti do jasnijeg strukturnog rascjepa. Time se potvrđuje da strukturne rupe nisu samo statički fenomen, nego imaju dinamičke implikacije za stabilnost mreže.

# inducirani podgraf bez brokera
g_soc_no_brokers <- igraph::delete_vertices(g_soc, V(g_soc)$broker == "broker")

# broj komponenti prije i poslije
igraph::components(g_soc)$no

## [1] 1

igraph::components(g_soc_no_brokers)$no

## [1] 11

plot(g_soc_no_brokers,
     layout = layout_with_fr,
     vertex.size = 6,
     vertex.label.cex = 0.5,
     main = "Društvena mreža bez top 5 brokera")

Za tehnološku mrežu (na neusmjerenoj projekciji):

brokers_tech <- sort(V(g_tech_u)$constraint)[1:5]
V(g_tech_u)$broker <- ifelse(V(g_tech_u)$constraint %in% brokers_tech, "broker", "ostalo")

cols <- c("ostalo" = "#d9c6a5", "broker" = "#9ecae1")

plot(g_tech_u,
     layout = layout_with_fr,
     vertex.color = cols[V(g_tech_u)$broker],
     vertex.size  = ifelse(V(g_tech_u)$broker == "broker", 15, 5),
     vertex.label = ifelse(V(g_tech_u)$broker == "broker", V(g_tech_u)$name, NA),
     vertex.label.cex = 0.5,
     vertex.label.color = "black",
     edge.arrow.size = 0.3,
     main = "Strukturne rupe: brokeri (najniži constraint) – tehnološka mreža")

legend("topleft",
       legend = names(cols),
       col = cols,
       pch = 19,
       pt.cex = c(1.2, 1.6),
       bty = "n")

U thenološkoj mreži, brokeri su: stats, rlang, utils, methods i ergm. Ovi paketi povezuju različite funkcionalne module. Njihova uloga nije “društvena”, nego infrastrukturna: oni integriraju ekosustav. Uklanjanje takvih paketa hipotetski bi značilo razdvajanje analitičkih, modelskih i dokumentacijskih slojeva sustava. Drugim riječima, brokeri su arhitektonske spojnice između modularnih blokova.

Važno je naglasiti da nizak constraint ne znači nužno visok stupanj. Čvor može imati umjeren broj veza, ali ako su njegovi susjedi međusobno nepovezani, njegova brokerska uloga može biti izrazita. To pokazuje da strukturne rupe hvataju drugačiju dimenziju od klasičnih centralnosti.

g_tech <- as_directed(g_tech)
g_tech_no_brokers <- delete_vertices(g_tech, V(g_tech)$broker == "broker")

igraph::components(g_tech)$no

## [1] 1

igraph::components(g_tech_no_brokers)$no

## [1] 1

plot(g_tech_no_brokers,
     layout = layout_with_fr,
     vertex.size = 5,
     vertex.label.cex = 0.5,
     edge.arrow.size = 0.5,
     main = "Tehnološka mreža bez top 5 brokera")

U tehnološkoj mreži posebno je zanimljivo promatrati:

razdvaja li se Tidyverse blok od modelskog bloka,
ostaje li bazni infrastrukturni sloj povezan,
dolazi li do izolacije specijaliziranih modula.

Ako se modularni blokovi jasno razdvoje, to potvrđuje da su brokeri bili intermodularni integratori.

Ovdje također treba uzeti u obzir da smo radi jednostavnosti koristili neusmjereni graf. Uklanjanjem ovih brokera, zapravo onemogućujemo rad svih paketa koji o njima ovise (to nije samo promjena strukture grafa, nego hipotetski kvar infrastrukture koji povlači domino-efekt).

U pravu ste, i to je ključna metodološka nadopuna interpretacije za tehnološku mrežu. Kod društvene mreže uklanjanje brokera možemo promatrati kao “uklanjanje aktera iz sustava”, ali kod mreže ovisnosti paketa uklanjanje čvora ima jasnu inženjersku semantiku: to nije samo promjena strukture grafa, nego hipotetski kvar infrastrukture koji povlači domino-efekt.

U tehnološkoj mreži smo radi jednostavnosti radili na neusmjerenoj projekciji, no ovisnosti su u osnovi usmjerene (paket A ovisi o B). Zbog toga “uklanjanje brokera” treba interpretirati na dva načina. Strukturno, u neusmjerenom prikazu vidimo kako bi se modularni blokovi razdvojili bez integracijskih čvorova. Funkcionalno, u stvarnom usmjerenom sustavu uklanjanje paketa poput stats, utils ili methods ne znači samo da se graf razlomio, nego da veliki broj drugih paketa više ne može raditi, jer gube nužne ovisnosti. Drugim riječima, u tehnološkom kontekstu brokeri često nisu samo posrednici između modula, nego i “kritična infrastruktura” čiji kvar generira kaskadne posljedice.

Zato je vrlo korisno pokazati oba kontrafaktualna scenarija: (1) “čisto strukturni” - uklanjanje čvorova iz neusmjerenog grafa radi vizualizacije modularnog raspada (prethodni graf), i (2) “funkcionalni” - kaskadno uklanjanje svih paketa koji (izravno ili neizravno) ovise o uklonjenim brokerima u usmjerenom grafu. Sljedeći graf govori nam o robusnosti i ranjivosti ekosustava.

# 2) FUNKCIONALNI SCENARIJ (kaskadni učinak u usmjerenom grafu)

# Ako uklonimo broker B, svi paketi koji ovise o B (izravno ili neizravno) postaju neupotrebljivi.
# U grafu ovisnosti, luk A -> B znači "A ovisi o B".
# Tada su "ovisnici" o B upravo svi čvorovi koji mogu DOĆI do B (imaju put prema B).
# To dobijemo tako da gledamo dosežnost u obrnutom grafu iz B.

g_rev <- reverse_edges(g_tech)

broker_ids_tech <- which(V(g_rev)$broker == "broker")
broker_names <- V(g_rev)$name[broker_ids_tech]
broker_names

## character(0)

# čvorovi koji otpadaju zbog jednog brokera
cascade_from_broker <- function(broker_names, g_rev) {
  # svi dosežni iz brokera u obrnutom grafu = svi koji ovise o brokeru (plus sam broker)
  as_ids(subcomponent(g_rev, broker_names, mode = "out"))
}

# svi čvorovi koji otpadaju zbog skupa brokera
cascade_all <- unique(unlist(lapply(broker_names, cascade_from_broker, g_rev = g_rev)))

length(cascade_all)

## [1] 0

setdiff(V(g_tech)$name, cascade_all) |> length()   # koliko ostaje

## [1] 84

length(cascade_all)

## [1] 0

head(cascade_all, 20)

## NULL

g_tech_dir_cascade_removed <- delete_vertices(g_tech, cascade_all)

igraph::components(as_undirected(g_tech, mode = "collapse"))$no

## [1] 1

igraph::components(as_undirected(g_tech_dir_cascade_removed, mode = "collapse"))$no

## [1] 1

plot(as_undirected(g_tech_dir_cascade_removed, mode = "collapse"),
     layout = layout_with_fr,
     vertex.size = 5,
     vertex.label = NA,
     main = "Kaskadno uklanjanje ovisnih paketa (funkcionalni učinak) \n 'vidimo' koliko paketa ostaje nakon kaskadnog učinka")

Ovdje je interpretacija jasna: u strukturnom prikazu “vidimo” kako bi se moduli razdvojili bez integratora, ali u funkcionalnom prikazu pokazujemo realističniju posljedicu: uklanjanje infrastrukturnih brokera uzrokuje krah ekosustava, jer velik broj paketa ovisi o tim čvorovima. Time strukturne rupe u tehnološkim mrežama dobivaju specifično značenje: one nisu samo brokerske pozicije između zajednica, nego i potencijalne točke sistemske ranjivosti.

Strukturne rupe su konceptualno najzanimljivije kada ih povežemo sa zajednicama: brokeri su često čvorovi koji imaju veze prema više zajednica i nalaze se „između” modularnih blokova. To je prirodan prijelaz prema sljedećem koraku u analizi: identificirati mostove između zajednica i analizirati kako takve pozicije utječu na difuziju informacija i stabilnost strukture.

U društvenoj mreži uklanjanje brokera tipično dovodi do povećanja fragmentacije ili barem do jasnijeg razdvajanja već postojećih zajednica. Brokeri u ovom kontekstu povezuju različite krugove interakcije i time održavaju globalnu koheziju mreže. Njihovim uklanjanjem povećava se broj komponenti ili se modularna struktura „učvršćuje”, odnosno zajednice i pojedini čvorovi postaju strukturno izoliranije. To upućuje na to da su brokerske pozicije ključne za integraciju različitih društvenih podskupina i za održavanje protoka informacija između njih. U kontekstu karate mreže, takav učinak vidimo kroz preostalih 8 izoliranih čvorova i tri zajednice. To možemo interpretirati kao ubrzavanje ili produbljivanje polarizacije: bez aktera koji premošćuju frakcije i pojedince, mreža postaje strukturno tvrđa i podjela stabilnija.

U tehnološkoj mreži učinak uklanjanja brokera ima drugačiju prirodu. Budući da su veze ovisnosti usmjerene i funkcionalne, uklanjanje infrastrukturnih brokera ne znači samo povećanje broja zajednica, nego može dovesti do kaskadnog kraha velikog dijela ekosustava. Ako je broker paket o kojem mnogi drugi izravno ili neizravno ovise, njegovo uklanjanje ne fragmentira samo strukturu, nego onemogućuje rad ovisnih modula. U tom slučaju ne govorimo više samo o povećanju modularnosti ili broja komponenti, nego o sistemskoj ranjivosti. Time se pokazuje da strukturne rupe u tehnološkim mrežama često označavaju ne samo mostove između modula, nego i potencijalne točke kritične infrastrukture, čiji gubitak ima disproporcionalan učinak na stabilnost sustava.

Emergentna svojstva

Emergentna svojstva su regularnosti koje se pojavljuju na razini cijele mreže i ne mogu se objasniti samo „lokalnim” pravilima bez uvida u strukturu sustava. Važno je razumjeti da se takva svojstva ne mogu pouzdano predvidjeti samo iz lokalnih informacija (npr. iz jednog čvora ili jedne veze), nego ovise o tome kako je cijeli sustav organiziran (raspored veza, postojanje modula, jezgre, mostova itd.). Upravo zato se u znanosti o mrežama naglašava da je kod velikih sustava često nemoguće razumjeti ili predvidjeti ukupno ponašanje “gledajući” samo pojedinačne čvorove i bridove.

Za potrebe boljeg razumijevanja, definiramo emergentna svojstva mreže kao karakteristike koje:

proizlaze iz interakcije velikog broja elemenata,
stabilne su i ponovljive na razini sustava,
nisu trivijalna sume lokalnih svojstava (npr. “svi imaju malo veza”), nego ovisi o makro-strukturi (komponente, jezgra–periferija, zajednice, mostovi).

U pravilu, radi se o tome da jednostavna lokalna pravila (npr. pravila usmjeravanja poruka, preferencijalno povezivanje, lokalna redundancija), agregirano proizvode ponašanje koje je “novo” na razini cijelog sustava.

U popularno-znanstvenim objašnjenjima (npr. prof. Sapolsky u drugim kontekstima) često se naglašava intuitivna ideja: na razini ponašanja pojedinaca vidimo skup pravila, ali kad se ti isti pojedinci nađu u grupi, na razini grupe dobijemo “novo” ponašanje koje ima vlastitu logiku. Jedan primjer emergentnog svojstva je vlažnost. Npr., atomi koji čine vodu nisu i ne mogu biti mokri - ali voda je mokra. U tom duhu, možete pogledati video na tu temu na kanalu Kurzgesagt – In a Nutshell, Emergence – How Stupid Things Become Smart Together. Ovakvih videa ima jako puno, do razine pitanja je li svjesnost (consciousness) emergentno svojstvo. Nemojte zaglibiti u bespuću videa na tu temu (bar ne predugo) i vratite se na ovu lekciju.

U mrežama je emergencija posebno vidljiva jer ista lokalna pravila povezivanja mogu proizvesti različite makro-ishode ovisno o topologiji: hoće li se formirati divovska komponenta, hoće li mreža biti modularna, hoće li biti robusna ili krhka na ciljane udare.

Van Steen (2010) opisuje slučaj u kojem je nakon napada 11. rujna 2001. mjerena reachability (dostižnost) skupa poslužitelja: odmah nakon poremećaja, dostižnost je pala za oko 9%, ali se u vrlo kratkom vremenu vratila gotovo na prijašnje vrijednosti.

Na mikro-razini polazimo od pravila ponašanja pojedinih elemenata sustava. U internetu to nisu “osobe”, nego čvorovi i protokoli: svaki ruter i svaki algoritam rutiranja koristi lokalne informacije (npr. dostupnost veza, troškove putova, tablice rutiranja) kako bi odabrao put kojim se paket podataka šalje dalje. Takva lokalna pravila nisu dizajnirana da održe mrežu kao cjelinu u sociološkom smislu, nego da optimiziraju komunikaciju iz perspektive lokalne odluke: pronaći valjan put, preferirati kraće/jeftinije rute i preusmjeriti promet ako je veza prekinuta. U Van Steenovu prikazu upravo se ta lokalna adaptivnost – mogućnost da se promet preusmjeri bez centralne kontrole – pojavljuje kao temeljni mikro-mehanizam koji omogućuje oporavak nakon poremećaja.

Na mezo-razini, iz takvih lokalnih pravila i iz povijesti izgradnje mreže nastaju strukturni obrasci: jezgre i periferije, hijerarhije, redundancija putova, te modularni blokovi. Za internet je osobito važna činjenica da postoji više alternativnih ruta između mnogih parova čvorova: iako pojedini čvor “ne zna” topologiju cijele mreže, mreža kao cjelina sadrži dovoljno redundantnih putova da lokalno preusmjeravanje ima smisla. Drugim riječima, mezo-struktura (postojanje više paralelnih kanala i relativno kratkih puteva između velikog broja čvorova) čini prostor mogućnosti u kojem mikro-pravila rutiranja mogu funkcionirati. Da takvih mezo-struktura nema, lokalna adaptacija ne bi proizvela oporavak, nego bi samo redistribuirala problem.

Na makro-razini, kombinacija mikro-pravila i mezo-strukture proizvodi emergentnu pravilnost koja se očituje tek na razini cijelog sustava: mreža pokazuje robusnost i brzo oporavljanje mjerljivo kroz dostižnost (reachability) i povezivost. Van Steenov primjer (pad dostižnosti nakon 11. rujna i relativno brzi povrat prema prethodnom stanju) upravo je demonstracija emergentnog ponašanja: niti jedan pojedini ruter “ne uzrokuje” oporavak, a ni jedna lokalna odluka sama po sebi ne objašnjava stabilnost. Stabilnost je svojstvo mreže kao cjeline, koje proizlazi iz načina na koji su lokalna pravila uklopljena u topologiju i redundanciju sustava. Takve makro-regularnosti postaju komparativni jezik mrežne znanosti: možemo ih koristiti za uspoređivanje različitih mreža (društvenih, ekonomskih, tehnoloških, bioloških), upravo kako se u teoriji mreža naglašava da različiti sustavi mogu dijeliti slične makro-obrasce, ali s različitim interpretacijama mehanizama. U tom smislu, emergentna svojstva – poput robustnosti na slučajne kvarove, osjetljivosti na ciljane udare, brzine difuzije ili modularnosti – funkcioniraju kao “indikatori klase” mreže: opisuju što mreža omogućuje ili ograničava, neovisno o domeni, te omogućuju sistematizaciju i usporedbu mreža na razini koja nadilazi pojedinačne čvorove i lokalne veze.

Kako to povezujemo s onim što smo već naučili?

Ono što smo u ovoj lekciji mjerili (gustoća, connectedness, komponente, jezgre, zajednice, strukturne rupe) su alati za opis makro-organizacije mreže. Emergentna svojstva su posljedice:

povezivost i komponente daju uvjet za globalnu prohodnost: ako mreža nije u “jednom komadu”, difuzija i koordinacija se raspadaju na više izoliranih procesa;
zajednice i modularnost često djeluju kao “pregrade”: mogu usporiti ili kanalizirati difuziju (informacija, zaraze, kvarovi), ali i stvoriti ovisnost o mostovima;
strukturne rupe/brokeri su tipične točke u kojima emergentna svojstva postaju krhka: uklanjanje brokera može izazvati skokovite promjene (npr. naglu fragmentaciju ili prekid funkcionalnih lanaca).

Drugim riječima, emergencija je interpretativni sloj iznad metrike. Metrike govore kakav je oblik sustava, a emergentna svojstva objašnjavaju što taj oblik omogućuje ili ograničava (robustnost, brzinu širenja, otpornost na kvarove, sklonost polarizaciji, itd.).

Jacksonova sistematizacija tipičnih obilježja mreža

Nakon što smo definirali emergentna svojstva kao makro-regularnosti koje proizlaze iz mikro-pravila i mezo-strukture, prirodno se postavlja pitanje: postoje li obrasci koji se sustavno ponavljaju u određenim klasama mreža?

Matthew O. Jackson (2010) u poglavlju Empirical Background on Social and Economic Networks sustavno sintetizira empirijska opažanja o društvenim i ekonomskim mrežama te ih implicitno uspoređuje s tehnološkim, biološkim i slučajnim mrežama. Ključna ideja nije da su sve mreže iste, nego da se određene strukturne regularnosti pojavljuju dovoljno često da postaju prepoznatljive karakteristike tipa mreže.

Jackson razmatra niz makro-obilježja, među kojima su posebno važna:

promjer i small-world efekt
klasterizacija
distribucija stupnja
asortativnost
homofilija
uloga slabih veza
strukturne rupe
difuzija
connectedness i pojava divovske komponente
pragovi i fazni prijelazi u slučajnim mrežama

Ta obilježja ne opisuju pojedinačne čvorove, nego strukturu sustava kao cjeline, i upravo zato daju uvide u emergentna svojstva.

Društvene i ekonomske mreže

Empirijska istraživanja pokazuju da društvene mreže tipično imaju:

visoku klasterizaciju (prijatelji mojih prijatelja često su i moji prijatelji),
izraženu homofiliju (povezivanje sličnih, npr. bogati s bogatima),
pozitivnu asortativnost po stupnju (čvorovi visokog stupnja češće se povezuju s drugim čvorovima visokog stupnja),
small-world svojstva (kratki prosječni putevi uz visoku lokalnu koheziju),
postoji interakcija između jezgre i periferije,
snažnu ulogu slabih veza i strukturnih rupa u difuziji informacija.

Ova kombinacija dovodi do tipičnog emergentnog ponašanja: informacije se šire relativno brzo kroz mrežu, ali se istodobno mogu zadržavati unutar klastera. Polarizacija i fragmentacija također su česta pojava jer modularna struktura može stabilizirati različite “blokove”.

Tehnološke i biološke mreže

Tehnološke i biološke mreže (npr. prometne veze, internet, metaboličke mreže, mreže ovisnosti softverskih paketa) često pokazuju:

izrazito heterogenu distribuciju stupnja (hubovi),
sklonost scale-free obrascima (teški rep distribucije),
robustnost na slučajne kvarove, ali ranjivost na ciljane napade na hubove,
negativnu asortativnost po stupnju (čvorovi visokog stupnja češće se povezuju s drugim čvorovima nižeg stupnja),
jasnu jezgru i periferiju,
funkcionalnu modularnost.

Emergentna svojstva ovdje se očituju u robusnosti sustava, ali i u potencijalnoj sistemskoj krhkosti: uklanjanje malog broja ključnih čvorova može izazvati kaskadne učinke.

Slučajne mreže kao referentni model

Svojstva slučajnih mreža:

pragovi i fazni prijelazi,
pojava divovske komponente,
connectedness,
distribucija stupnja u Poissonovim mrežama,
procjena promjera.

Slučajne mreže služe kao nul-model: omogućuju usporedbu empirijskih mreža s očekivanim obrascem bez specifičnih društvenih ili funkcionalnih mehanizama. Primjerice, u slučajnoj mreži klasterizacija je tipično niska, homofilija nije sistematska, a struktura zajednica nije stabilna.

Zašto je ova podjela važna u kontekstu emergencije?

Emergentna svojstva nisu slučajna iznenađenja, nego stabilni obrasci koji proizlaze iz kombinacije:

lokalnih pravila povezivanja,
mikro- i mezo-strukturnih konfiguracija (modularnost, jezgra–periferija),
distribucije stupnja,
redundancije i mostova.

Jacksonova sistematizacija omogućuje nam da različite mreže ne promatramo izolirano, nego u kontekstu njihove tipološke pripadnosti.

Primjerice:

ako društvena mreža pokazuje visoku klasterizaciju i homofiliju, to je konzistentno s empirijskim nalazima;
ako tehnološka mreža pokazuje hubove i kaskadnu ranjivost, to je također očekivano;
ako slučajna mreža pokazuje divovsku komponentu tek nakon prelaska praga gustoće, to ilustrira fazni prijelaz — emergentni skok u connectedness-u.

Drugim riječima, emergentna svojstva postaju komparativni jezik mrežne znanosti: pomoću njih možemo uspoređivati karate klub, internet, R ekosustav i slučajni graf u istom teorijskom okviru.

Pareto (20/80) pravilo

Pareto-pravilo (20/80) u mrežama je praktičan način opisivanja koncentracije: relativno mali udio čvorova može “nositi” velik udio ukupne povezanosti, prometa, bogatstva ili utjecaja. U kontekstu mreža to nije tvrdnja da je omjer uvijek točno 20/80, nego heuristika koja usmjerava pozornost na nejednakost raspodjele resursa i uloga: ako je struktura vrlo koncentrirana, tada mali broj čvorova postaje infrastrukturno ili društveno presudan za funkcioniranje sustava.

Formalno, Pareto-udjel možemo definirati nad bilo kojom nenegativnom “težinom” čvorova \(w_i\) (npr. stupanj, težinski stupanj – strength, PageRank, promet). Neka je \(n\) broj čvorova, \(p\in(0,1)\) udio “top” čvorova (npr. \(p=0.2\)), a \(w_{(1)}\ge \dots \ge w_{(n)}\) težine poredane silazno. Tada je Pareto-udio:

\[ S(p) = \frac{\sum_{i=1}^{k} w_{(i)}}{\sum_{i=1}^{n} w_{(i)}}, \quad k=\lceil pn\rceil. \]

U ovoj formuli \(S(p)\) predstavlja udio ukupne “mase” koji pripada najvažnijih \(p\cdot 100%\) čvorova; \(w_{(i)}\) je \(i\)-ta najveća vrijednost promatrane mjere, a \(k\) je broj čvorova koji ulaze u “top” skup. Vrijednost \(S(p)\) je između 0 i 1: što je veća, to je mreža koncentriranija. Primjerice, ako za \(p=0.2\) dobijemo \(S(0.2)=0.80\), tada top 20% čvorova nosi 80% ukupnog stupnja, što je tipična interpretacija “20/80”. Važno je naglasiti da u malim mrežama \(k\) može biti vrlo mali (npr. u karate mreži \(n=34\Rightarrow k=7\)), pa je mjera osjetljiva na pojedinačne čvorove s velikim stupnjem.

Napomena: Paretovo pravilo 80/20 koristi se i u širem kontekstu nego pto ga mi koristimo. Pvdje možete pogledati nakoliko primjera kako bi stekli općenitiji dojam o samom pravilu.

U ovoj lekciji Pareto-udjel računamo nad stupnjem, što znači da mjerimo koncentraciju veza. U društvenoj mreži visoka vrijednost \(S(0.2)\) obično implicira da nekoliko aktera (npr. neformalni lideri i posrednici) održava velik dio društvene infrastrukture: bez njih bi mreža izgubila velik dio povezanosti i koordinacije. U tehnološkoj mreži visoka vrijednost \(S(0.2)\) implicira koncentraciju ovisnosti oko malog broja infrastrukturnih paketa: oni su temeljne “točke oslonca” sustava, pa njihova ranjivost ili promjene imaju potencijalno disproporcionalne posljedice. U oba slučaja Pareto-udjel je makro-indikator emergentne nejednakosti uloga: cjelokupna mreža “radi” tako da mali broj čvorova nosi velik dio strukturnog opterećenja. No, za mreže u kojima imamo neki dodatni atribut čvorova, npr. bogatstvo, mogli bismo utvrditi top 20% čvorova po stupnju i provjeriti sadrže li 80% ukupnog bogatstva cijele mreže.

Praktično, Pareto-udjel računamo tako da izračunamo stupnjeve čvorova, uzmemo najvećih \(k=\lceil pn\rceil\) i podijelimo njihov zbroj s ukupnim zbrojem stupnjeva. U nastavku je funkcija koja implementira ovu definiciju te primjer za društvenu i tehnološku mrežu. Istu logiku možemo primijeniti na strength umjesto na degree, čime dobivamo Pareto-udjel intenziteta (npr. 20% čvorova nosi 80% ukupne težine veza).

pareto_share <- function(g, p = 0.2, weights = NULL, mode = "all") {
  # weights = NULL -> degree; weights = E(g)$weight -> strength u ponderiranom grafu
  if (is.null(weights)) {
    w <- igraph::degree(g, mode = mode)
  } else {
    w <- strength(g, mode = mode, weights = weights)
  }
  k <- ceiling(length(w) * p)
  sum(sort(w, decreasing = TRUE)[1:k]) / sum(w)
}

pareto_share(g_soc, 0.2)                      # koncentracija veza u društvenoj mreži

## [1] 0.4871795

pareto_share(g_tech, 0.2, mode = "all")       # za usmjereni graf: ukupni stupanj

## [1] 0.4575071

Karate mreža: top 20% čvorova nosi ≈ 48.7% ukupnog stupnja
Tehnološka mreža: top 20% čvorova nosi ≈ 45.8% ukupnog stupnja

To znači da u obje mreže postoji umjerena koncentracija, ali daleko od ekstremne 20/80 logike. Drugim riječima, struktura nije potpuno egalitarna, ali nije ni izrazito “hub-dominant”. Također, s obzirom da je ovo jedna od karakteristika društvenih i ekonomskih mreža, ne možemo tvrditi niti za karate klub da se ponaša kao tipična društvena mreža (jedan od razloga je i veličina mreže).

Lorenzova krivulja je grafički prikaz kumulativne raspodjele resursa (ovdje: stupnja čvorova).

Postupak:

Poredamo čvorove po rastućem stupnju.
Računamo kumulativni udio čvorova (x-os).
Računamo kumulativni udio ukupnog stupnja (y-os).

Ako je mreža potpuno egalitarna (svi imaju isti stupanj), Lorenzova krivulja je dijagonala:

20% čvorova → 20% veza
50% čvorova → 50% veza
itd.

Što je krivulja više zakrivljena ispod dijagonale, to je koncentracija veća.

Intuicija:

Lorenzova krivulja pokazuje koliko je distribucija veza neravnomjerna duž cijele mreže — ne samo na razini 20%.

lorenz_data <- function(g, mode = "all") {
  d <- igraph::degree(g, mode = mode)
  d_sorted <- sort(d)
  cum_deg <- cumsum(d_sorted) / sum(d_sorted)
  cum_nodes <- (1:length(d_sorted)) / length(d_sorted)
  data.frame(cum_nodes, cum_deg)
}

plot_lorenz <- function(g, mode = "all", main = "Lorenzova krivulja") {
  df <- lorenz_data(g, mode)
  plot(df$cum_nodes, df$cum_deg,
       type = "l", lwd = 2,
       xlab = "Kumulativni udio čvorova",
       ylab = "Kumulativni udio stupnja",
       main = main)
  abline(0, 1, col = "red", lty = 2)  # linija savršene jednakosti
}

par(mfrow=c(1,2))
plot_lorenz(g_soc, main = "Lorenz - društvena mreža")
plot_lorenz(g_tech, main = "Lorenz - tehnološka mreža")

Gini koeficijent je numerička mjera nejednakosti izvedena iz Lorenzove krivulje. Često se koristi u ekonomiji kao mjera nejednakosti.

Formalno, Gini je:

\[ G = 1 - 2 \int_0^1 L(p),dp \]

gdje je \(L(p)\) Lorenzova krivulja.

Intuicija:

G = 0 → potpuna jednakost
G ≈ 0.3–0.4 → umjerena nejednakost
G > 0.5 → visoka koncentracija
G → 1 → ekstremna koncentracija (jedan čvor nosi gotovo sve veze)

U mrežnom kontekstu:

Visok Gini → hub-dominantna struktura
Nizak Gini → ravnomjernija raspodjela veza

gini_degree <- function(g, mode = "all") {
  d <- igraph::degree(g, mode = mode)
  n <- length(d)
  d_sorted <- sort(d)
  G <- (2 * sum(d_sorted * seq_len(n)) / (n * sum(d_sorted))) - (n + 1) / n
  return(G)
}

gini_degree(g_soc)

## [1] 0.3853695

gini_degree(g_tech)

## [1] 0.4233778

U društvenoj mreži karate kluba dobiveni Gini koeficijent \(G≈0.385\) upućuje na umjerenu nejednakost raspodjele stupnja: postoje akteri koji nose nesrazmjerno velik dio veza (hijerarhija je prisutna), ali struktura nije ekstremno centralizirana u smislu da bi većina povezanosti ovisila o jednom čvoru. Drugim riječima, mreža ima prepoznatljive lidere i posrednike, no značajan dio veze raspodijeljen je i među ostalim članovima. Takav nalaz je u skladu s ranije dobivenom modularnošću \(Q≈0.43\): mezostruktura zajednica je jasno prisutna, ali mreža nije “tvrdo” polarizirana u dvije potpuno odvojene cjeline, nego zadržava određenu razinu integracije i redundantnih veza među akterima.

U tehnološkoj mreži R paketa Gini koeficijent je nešto viši, \(G≈0.423\), što sugerira izraženiju koncentraciju ovisnosti oko manjeg broja infrastrukturnih paketa, ali još uvijek ne na razini ekstremne monocentričnosti. To znači da postoje “jezgreni” paketi koji se pojavljuju kao česta ovisnost velikog broja drugih paketa, no ekosustav nije u potpunosti sveden na jedan dominantan čvor ili jednu usku jezgru. U interpretaciji tehnoloških sustava to je važna nijansa: umjerena koncentracija može istovremeno omogućiti standardizaciju i stabilnost (mali broj pouzdanih infrastrukturnih komponenti), ali i zadržati određenu razinu strukturne redundancije. Ta redundancija povećava otpornost na slučajne kvarove, iako ne isključuje ranjivost na ciljane poremećaje ključnih čvorova — što je upravo tip emergentnog kompromisa između učinkovitosti i robusnosti koji se često uočava u kompleksnim tehnološkim mrežama.

Ovo je vrlo zanimljivo jer pokazuje da čak i u tehnološkom sustavu koji ima poznate “core” pakete, koncentracija nije ekstremna. To sugerira strukturnu redundanciju i određenu razinu otpornosti.

Da rezimiramo. Pareto (20/80) daje:

intuitivnu, komunikativnu točku (top 20% čvorova - 80% resursa)

Lorenz + Gini daju:

cjelovitu sliku raspodjele
matematički preciznu mjeru nejednakosti
most prema ekonomiji i teoriji nejednakosti

To je savršen primjer emergentnog svojstva:

Nejednakost distribucije veza nije svojstvo pojedinog čvora, nego globalne strukture mreže.

Iako se u popularnoj literaturi često navodi fiksni omjer 80/20, u realnim mrežama taj omjer varira ovisno o domeni, ali potvrđuje princip ekstremne koncentracije:

World Tourism Web (WTW): U toj mreži top 20% zemalja (\(≈48\) zemalja) nosi 85.57% svih putovanja (po ponderiranim stupnjevima), te pokriva \(~85.58%\) receptivnog i \(83.04%\) emitentnog tržišta. Nalaz pokazuje „Pareto-efekt” u ponderiranoj verziji mreže (Kostelić & Turk, 2021)
Mreže citiranja: Priceova opažanja o citatnim mrežama kao primjer visoke nejednakosti stupnjeva - u znanstvenoj zajednici, 80% svih citata odlazi na samo 38% znanstvenika. (Jackson, 2010; Price, 1965)
World Wide Web (WWW): Istraživanja pokazuju da 80% svih poveznica na internetu upućuje na svega 15% web stranica *(Jackson, 2010)**.
Mreža glumaca (Hollywood): Unutar filmske industrije, 80% veza (zajedničkih nastupa) ostvaruje svega 30% glumaca *(Jackson, 2010)**.
Izvorni Paretov nalaz u ekonomiji ukazivao je na to da 20% stanovništva posjeduje 80% bogatstva (primjer Italije u 19. stoljeću) *(Jackson, 2010)**.

Pareto-pravilo je intrinzično povezano s mrežama čija distribucija stupnja slijedi zakon potencije (power law), koje se nazivaju scale-free mreže. Time ćemo se baviti nešto kasnije u ovom tekstu.

Asortativnost

Asortativnost po stupnju (degree assortativity) mjeri sklonost čvorova da se povezuju s drugim čvorovima sličnog stupnja. Intuitivno, postavlja se pitanje: povezuju li se “hubovi” s drugim hubovima (pozitivna asortativnost) ili se visoko povezani čvorovi tipično vežu uz slabo povezane (negativna asortativnost)?

U kontekstu empirijskih opažanja koja sistematizira Jackson (2010), društvene i ekonomske mreže često pokazuju pozitivnu asortativnost, dok su tehnološke i biološke mreže češće disasortativne. Razlog je mehanizam nastanka veza: u društvenim sustavima popularni akteri često interagiraju s drugim popularnim akterima radi dodatne akumulacije resursa ili statusa (npr. lideri, centralne osobe), dok u tehnološkim sustavima centralni infrastrukturni čvorovi služe velikom broju perifernih elemenata (hub–spoke obrazac).

Formalno, asortativnost po stupnju je Pearsonov koeficijent korelacije stupnjeva čvorova na krajevima bridova. Ako označimo stupnjeve krajeva svakog brida s \(k_i\) i \(k_j\), tada se asortativnost može interpretirati kao korelacija između tih vrijednosti preko svih bridova mreže. Vrijednost koeficijenta \(r\) leži u intervalu \([-1,1]\):

\(r>0\): asortativna mreža (slični se povezuju sa sličnima),
\(r<0\): disasortativna mreža (visoki stupanj povezan s niskim),
\(r\approx 0\): nema sistematske korelacije.

U igraph-u se asortativnost po stupnju računa funkcijom assortativity_degree():

assortativity_degree(g_soc, directed = FALSE)

## [1] -0.4756131

assortativity_degree(g_tech, directed = TRUE)

## [1] -0.2604261

Dobiveni rezultati zahtijevaju korekciju početne intuitivne pretpostavke.

U društvenoj mreži karate kluba asortativnost iznosi \(r_{soc} \approx -0.476\), što je izrazito negativna vrijednost. To znači da je mreža disasortativna: visoko povezani akteri (npr. Mr. Hi i John A te drugi centralni članovi) tipično su povezani s članovima nižeg stupnja, a ne međusobno. Drugim riječima, struktura nije “elita povezana s elitom”, nego ima izražen obrazac lider–sljedbenik.

U danom kontekstu, ovo je smisleno. U maloj organizacijskoj mreži s prepoznatljivim vodstvom očekujemo da centralni akteri imaju velik broj veza prema perifernim članovima (instruktorski ili mentorski odnosi), dok periferni članovi međusobno imaju manje interakcija. Takav obrazac proizvodi snažno negativnu korelaciju stupnjeva na krajevima bridova. Zanimljivo je da je ta disasortativnost znatno izraženija nego u tehnološkoj mreži, što sugerira da je hijerarhijska dinamika u karate klubu vrlo naglašena. To je također kompatibilno s kasnijim raskolom: mreža je organizirana oko centralnih figura, a ne oko guste, međusobno povezane elite.

U tehnološkoj mreži R paketa dobivena je vrijednost \(r_{tech} \approx -0.102\), što također ukazuje na disasortativnost, ali znatno slabiju. Ovdje je obrazac tipičan za infrastrukturne sustave: paketi s velikim stupnjem (npr. stats, utils, rlang, methods) povezuju se s mnogim paketima koji imaju mali broj ovisnosti. To je klasična hub–spoke struktura. Međutim, budući da je vrijednost blizu nule, disasortativnost nije ekstremna - što znači da jezgreni paketi nisu isključivo povezani s periferijom, nego postoji i određena povezanost unutar jezgre. To je u skladu s ranije uočenom umjerenom koncentracijom (Gini \(≈ 0.42\)) i modularnošću (≈ 0.38): ekosustav ima jezgru, ali nije strogo dvodijelan niti potpuno hijerarhijski.

U usporedbi dviju mreža vidimo zanimljiv kontrast. Iako se prema Jacksonovim empirijskim opažanjima društvene mreže često navode kao pozitivno asortativne, ova konkretna mala organizacijska mreža pokazuje snažnu disasortativnost. To nas podsjeća na važnu metodološku pouku: empirijske pravilnosti su tendencije, a ne univerzalni zakoni. Male organizacijske mreže s izraženim vodstvom mogu pokazivati jaču disasortativnost nego veliki društveni sustavi poput mreža prijateljstva ili profesionalnih kontakata.

Najvažnije, asortativnost je emergentno svojstvo: nijedan pojedinačni akter “nije disasortativan”. Tek agregiranjem svih bridova dobivamo globalnu korelaciju stupnjeva koja otkriva obrazac organizacije sustava. U karate klubu taj obrazac je hijerarhijski i centralno usmjeren, dok je u tehnološkoj mreži infrastrukturno-hubovski, ali blaže izražen.

WTW: WTW je disasortativna – zemlje s mnogo veza češće se povezuju sa slabije povezanim zemljama (hub-and-spoke obrazac), korelacije stupnjeva (in/out/ukupni i ponderirani) su negativne (npr. \(r\) za degree \(= −0.261\)) (Kostelić & Turk, 2021)
Trgovinske mreže: Jackson navodi nalaze da su neke trgovinske mreže (npr. po stupnju) disasortativne, te to povezuje s ulogom “čvorišta” i perifernih aktera. (Jackson, 2010; Serrano & Boguñá, 2003)
Razne empirijske mreže: Newmanovi pregledi asortativnosti (npr. suradničke mreže često asortativne, dok su neke infrastrukturne/tehnološke mreže disasortativne). (Jackson, 2010; Newman, 2002)
Internet (razina autonomnih sustava - AS): Tipičan primjer disasortativnosti s r=−0.189 (Jackson, 2010).
E-mail mreža: Pokazuje disasortativno ponašanje (često zbog “hub-spoke” komunikacije) (Jackson, 2010).
Metabolička mreža (npr. E. coli): Izrazito disasortativna s r=−0.226 (Jackson, 2010).
Proteinske interakcije: Pokazuje disasortativnost od r=−0.156 (Jackson, 2010).
Iznimka - World Wide Web (WWW): asortativni odnos (r=0.58) između ulaznog stupnja čvora i prosječnog ulaznog stupnja njegovih susjeda, što ga čini netipičnim tehnološkim sustavom (Jackson, 2010).

Tranzitivnost (globalni koeficijent klasterizacije)

Tranzitivnost vezujemo uz klike, preciznije triplete.

Formalno, globalna tranzitivnost definira se kao:

\[T = \frac{3 \times \text{broj tripleta}}{\text{broj povezanih tripleta}}\]

Intuitivno:

Ako je A povezan s B, i B s C,
kolika je vjerojatnost da su A i C također povezani?

Tranzitivnost mjeri sklonost zatvaranju trokuta (tripleta), tj. lokalnu gustoću i pojavu zatvorenih krugova interakcije.

transitivity(g_soc)

## [1] 0.2556818

Vrijednost 0.256 znači da otprilike četvrtina potencijalnih trokuta doista postoji u društvenoj mreži. To ukazuje na umjerenu lokalnu koheziju:

postoje zatvoreni krugovi,
ali mreža nije potpuno “klika-strukturirana”.

To je konzistentno s ranije uočenim zajednicama: postoji mezostruktura, ali ne potpuna fragmentacija.

transitivity(g_tech)

## [1] 0.3249661

Transitivity tehnološke mreže iznosi približno 0.325 i viša je nego u društvenoj mreži.

To znači da postoji značajna lokalna kohezija modula:

paketi unutar istog funkcionalnog sloja često su međusobno povezani,
postoje zatvoreni dependency krugovi ili usko integrirani podsustavi.

Ovo je u skladu s ranije identificiranim modularnim blokovima (tidyverse, statnet, dokumentacijski sloj itd.).

Ham Radio mreža - 0.47 - Iznimno visoka lokalna kohezija u malim komunikacijskim grupama (Jackson, 2010).
Zatvorska mreža - 0.31 - Visoka razina zatvaranja trokuta unutar izoliranih društvenih sustava (Jackson, 2010).
Mreža koautorstva - 0.16 - Neki izvori navode i više vrijednosti za specifične discipline (npr. fizika, ekonomija), gdje istraživački timovi čine klike (Jackson, 2010).
World Wide Web (WWW) - 0.11 - Niska tranzitivnost na globalnoj razini, ali visoka unutar specifičnih tematskih domena (Jackson, 2010).
Citatne mreže - 0.07 - Relativno niska tranzitivnost jer citati teku asimetrično kroz vrijeme (Jackson, 2010).
Seksualni kontakti - Blizu 0 - Karakterizira ih heterofilija i gotovo potpuna odsutnost tranzitivnosti (ako A ima kontakt s B, a B s C, A i C su vrlo rijetko povezani) (McLevey, Scott & Carrington, 2024).

Homofilija

Homofilija označava tendenciju povezivanja „sličnih sa sličnima”. Dok asortativnost po stupnju mjeri povezuju li se čvorovi slične strukturne pozicije, homofilija se odnosi na sličnost u atributima: demografskim, organizacijskim, funkcionalnim ili tematskim.

U formalnom smislu, homofilija se najčišće operacionalizira kada čvorovi imaju nominalni atribut (npr. frakcija, spol, odjel, autor, tip paketa). Tada se može mjeriti:

udio bridova između čvorova iste kategorije u odnosu na sve bridove,
ili asortativnost po nominalnoj varijabli (korelacija između oznaka kategorija na krajevima bridova).

U igraph-u se to računa funkcijom:

assortativity_nominal(g, as.integer(factor(V(g)$atribut)), directed = FALSE)

Vrijednosti su u rasponu \([-1,1]\):

\(> 0\) → homofilija (unutar-grupno povezivanje iznad slučajnog očekivanja),
\(≈0\) → nema izraženog obrasca,
\(<0\) → heterofilija (preferencija prema “drugačijima”).

Važno je naglasiti da homofilija uspoređuje opaženi udio „isti–isti” bridova s nul-modelom u kojem se veze raspoređuju slučajno uz zadanu strukturu stupnjeva.

Karate klub je idealan primjer jer imamo poznati atribut Faction. Ovdje je pitanje:

Povezuju li se članovi više unutar frakcija nego između frakcija?

# provjera nominalne asortativnosti po frakciji
assortativity_nominal(g_soc,
                      as.integer(factor(V(g_soc)$Faction)),
                      directed = FALSE)

## [1] 0.7434211

Vrijednost je visoka i pozitivna, što znači da je homofilija po frakciji izražena - članovi su se već prije formalnog raskola primarno interagirali unutar vlastitih tabora. To potvrđuje interpretaciju da je polarizacija bila strukturno ukorijenjena u obrascima interakcije.

S obzirom na ranije rezultate (jasna modularnost i gotovo savršeno poklapanje fast greedy zajednica s frakcijama), očekivali smo da će homofilija po frakciji biti izražena (a sad smo to i potkrjepili analizom).

Ovdje se jasno vidi razlika, ali i veza između:

zajednica (strukturno detektirani blokovi),
homofilije (povezanost po atributu).

Ako se zajednice i frakcije gotovo poklapaju, to znači da je atribut “frakcija” snažan organizacijski princip mreže.

Kod R paketa nemamo unaprijed zadani atribut poput frakcije. No moguće su tri konceptualno zanimljive operacionalizacije:

Ako dohvatimo metapodatke (npr. iz DESCRIPTION datoteka ili CRAN API-ja), možemo konstruirati atribut “autor” ili “primarni održavatelj”. Tada možemo ispitati: jesu li paketi istog autora međusobno češće povezani nego što bismo očekivali slučajno? To bi detektiralo “autorske klastere”.

Paketi se mogu grupirati po temama (npr. vizualizacija, statistika, mrežna analiza, optimizacija). Tada se može ispitati: postoji li homofilija po funkcionalnoj domeni? To bi bio najzanimljiviji analitički pristup, jer bi pokazao je li modularnost tehnološke mreže zapravo tematska modularnost. Ali, to bismo morali napraviti ručno, jer takva tipologija nije navedena u metapodacima.

Ako nemamo vanjski atribut, možemo konstruirati jedan:

npr. zajednica detektirana algoritmom,
ili “core vs periferija” oznaka.

To je manje normativno (atribut izveden iz same strukture), ali bi pokazalo u kojoj mjeri se veze koncentriraju unutar funkcionalnih modula.

Krenimo s prvim - autori paketa.

get_pkg_meta <- function(pkgs) {
  out <- lapply(pkgs, function(p) {
    d <- tryCatch(utils::packageDescription(p), error = function(e) NULL)
    if (is.null(d)) {
      return(data.frame(package = p,
                        maintainer = NA_character_,
                        author = NA_character_))
    }
    
    maint <- if (!is.null(d$Maintainer)) d$Maintainer else NA_character_
    
    # zadržavamo samo dio prije "<"
    maint_clean <- if (!is.na(maint)) {
      trimws(sub("<.*", "", maint))
    } else NA_character_
    
    data.frame(
      package    = p,
      maintainer = maint_clean,
      author     = if (!is.null(d$Author)) d$Author else NA_character_
    )
  })
  do.call(rbind, out)
}

pkgs <- V(g_tech)$name
meta <- get_pkg_meta(pkgs)

head(meta, 10)

##      package          maintainer
## 1     igraph       Kirill Müller
## 2     ggraph Thomas Lin Pedersen
## 3  tidygraph Thomas Lin Pedersen
## 4        sna     Carter T. Butts
## 5    statnet      Martina Morris
## 6    methods         R Core Team
## 7        cli        Gábor Csárdi
## 8   graphics         R Core Team
## 9  lifecycle        Lionel Henry
## 10    Matrix     Martin Maechler
##                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             author
## 1                                                                                                                                              Gábor Csárdi [aut] (ORCID: <https://orcid.org/0000-0001-7098-9676>),\n  Tamás Nepusz [aut] (ORCID: <https://orcid.org/0000-0002-1451-338X>),\n  Vincent Traag [aut] (ORCID: <https://orcid.org/0000-0003-3170-3879>),\n  Szabolcs Horvát [aut] (ORCID: <https://orcid.org/0000-0002-3100-523X>),\n  Fabio Zanini [aut] (ORCID: <https://orcid.org/0000-0001-7097-8539>),\n  Daniel Noom [aut],\n  Kirill Müller [aut, cre] (ORCID:\n    <https://orcid.org/0000-0002-1416-3412>),\n  Michael Antonov [ctb],\n  Chan Zuckerberg Initiative [fnd] (ROR: <https://ror.org/02qenvm24>),\n  David Schoch [aut] (ORCID: <https://orcid.org/0000-0003-2952-4812>),\n  Maëlle Salmon [aut] (ORCID: <https://orcid.org/0000-0002-2815-0399>)
## 2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           Thomas Lin Pedersen [cre, aut] (ORCID:\n    <https://orcid.org/0000-0002-5147-4711>),\n  RStudio [cph]
## 3                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    Thomas Lin Pedersen [cre, aut]\n    (<https://orcid.org/0000-0002-5147-4711>)
## 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  Carter T. Butts [aut, cre, cph]
## 5                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        Mark S. Handcock [aut],\n  David R. Hunter [aut],\n  Carter T. Butts [aut],\n  Steven M. Goodreau [aut],\n  Pavel N. Krivitsky [aut] (<https://orcid.org/0000-0002-9101-3362>),\n  Skye Bender-deMoll [aut],\n  Martina Morris [aut, cre]
## 6                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      R Core Team
## 7                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 Gábor Csárdi [aut, cre],\n  Hadley Wickham [ctb],\n  Kirill Müller [ctb],\n  Salim Brüggemann [ctb] (<https://orcid.org/0000-0002-5329-5987>),\n  Posit Software, PBC [cph, fnd]
## 8                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           R Core Team and contributors worldwide
## 9                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             Lionel Henry [aut, cre],\n  Hadley Wickham [aut] (ORCID: <https://orcid.org/0000-0003-4757-117X>),\n  Posit Software, PBC [cph, fnd]
## 10 Douglas Bates [aut] (<https://orcid.org/0000-0001-8316-9503>),\n  Martin Maechler [aut, cre] (<https://orcid.org/0000-0002-8685-9910>),\n  Mikael Jagan [aut] (<https://orcid.org/0000-0002-3542-2938>),\n  Timothy A. Davis [ctb] (<https://orcid.org/0000-0001-7614-6899>,\n    SuiteSparse libraries, collaborators listed in\n    dir(system.file("doc", "SuiteSparse", package="Matrix"),\n    pattern="License", full.names=TRUE, recursive=TRUE)),\n  George Karypis [ctb] (<https://orcid.org/0000-0003-2753-1437>, METIS\n    library, Copyright: Regents of the University of Minnesota),\n  Jason Riedy [ctb] (<https://orcid.org/0000-0002-4345-4200>, GNU\n    Octave's condest() and onenormest(), Copyright: Regents of the\n    University of California),\n  Jens Oehlschlägel [ctb] (initial nearPD()),\n  R Core Team [ctb] (base R's matrix implementation)

sum(is.na(meta$maintainer))  # koliko paketa nema metapodatke (npr. nije instaliran)

## [1] 0

# dodjela održavatelja čvorovima
V(g_tech)$maintainer <- meta$maintainer[match(V(g_tech)$name, meta$package)]

# opcionalno: sažimanje u top-k održavatelja (da interpretacija bude smislenija)
top_k <- 10
top_levels <- names(sort(table(V(g_tech)$maintainer), decreasing = TRUE))[1:top_k]

V(g_tech)$maint_group <- ifelse(V(g_tech)$maintainer %in% top_levels,
                                V(g_tech)$maintainer,
                                "ostalo")

# mjerenje homofilije po održavatelju (na neusmjerenoj projekciji radi usporedivosti)
g_tech_und <- as_undirected(g_tech, mode = "collapse")

assort_maint <- assortativity_nominal(
  g_tech_und,
  as.integer(factor(V(g_tech_und)$maint_group)),
  directed = FALSE
)
assort_maint

## [1] 0.05718101

Vrijednost asortativnosti po održavatelju (0.057), blizu je nule, što znači da u ovoj mreži nema sustavne sklonosti da se paketi istog održavatelja češće povezuju međusobno nego s paketima drugih održavatelja (za autore bi trebalo dodatno provjeriti). Drugim riječima, ovi rezultati sugeriraju da ovisnosti među paketima nisu organizirane “autorskim klanovima”, nego presijecaju autorske granice. To je očekivano za zdrav tehnološki ekosustav: paketi se oslanjaju na zajedničke infrastrukturne komponente i funkcionalne standarde koji su rezultat kolektivnog rada šire zajednice, a ne zatvorenih autorskih skupina. U tom smislu, niski \(r\) je indikator interoperabilnosti i “otvorenosti” ekosustava: ovisnosti se oblikuju prema potrebi funkcionalnosti, a ne prema socijalnoj bliskosti autora.

Prelazimo na provjeru tematske homofilije.

# pretpostavka: već imamo community oznake, npr. V(g_tech)$comm

assort_comm <- assortativity_nominal(
  g_tech_und,
  as.integer(factor(V(g_tech_und)$comm)),
  directed = FALSE
)
assort_comm

## [1] 0.5495194

Nasuprot tome, vrijednost asortativnosti po zajednicama (0.549) je umjerena i pozitivna. To znači da se bridovi u velikoj mjeri ostvaruju unutar istih zajednica (blokova) koje je algoritam detektirao, a relativno rjeđe između zajednica. U terminima homofilije, to je snažan signal “slični sa sličnima”, ali sada “sličnost” nije vanjski atribut (autor), nego strukturna pripadnost funkcionalnom modulu. Ova mjera zapravo kvantificira ono što vizualno prepoznajemo kao modularnu arhitekturu: ekosustav je razlomljen na kohezivne podskupove u kojima su ovisnosti guste, dok su veze među modulima selektivne i rjeđe. To je kompatibilno i s ranije dobivenom modularnošću (Q≈0.38): zajednice su dovoljno izražene da nose značajan dio veza, ali ekosustav nije fragmentiran — postoje i poveznice među modulima, tipično preko infrastrukturnih paketa koji “prebacuju” ovisnosti između funkcionalnih domena.

Ova usporedba jasno pokazuje kako homofilija nije jedinstven fenomen, nego ovisi o tome što smatramo sličnošću. U društvenim mrežama sličnost se često temelji na atributima (npr. frakcija, odjel, interes), dok u tehnološkim mrežama sličnost češće proizlazi iz funkcionalne uloge i modularne organizacije sustava. Ovdje upravo vidimo da je ekosustav R paketa slabo strukturiran socijalno (po autorima), ali snažno strukturiran strukturno/funkcionalno (po zajednicama), što je tipičan obrazac za tehnološke mreže u kojima se ovisnosti oblikuju prvenstveno inženjerskim zahtjevima i kompatibilnošću komponenti.

U društvenim mrežama homofilija je često mehanizam nastanka strukture: ljudi biraju slične ljude (po statusu, uvjerenjima, interesima, poziciji). U tehnološkim mrežama homofilija po funkciji može proizlaziti iz kompatibilnosti, funkcionalnosti i integracije.

Zanimljivo je povezati ovo s ranije utvrđenom asortativnosti:

Karate mreža je disasortativna po stupnju (lider–sljedbenik),
ali je homofilna po frakciji.

To znači da se dva različita emergentna svojstva mogu istodobno pojaviti:

hijerarhijska struktura (po stupnju),
polarizacija po atributu (frakcija).

U tehnološkoj mreži nalazimo:

blagu disasortativnost po stupnju,
pozitivnu homofiliju po funkciji (temi).

Srednjoškolske mreže prijateljstava (etnicitet): Jackson navodi primjer gdje je udio veza unutar iste etničke skupine izrazito visok, što je klasičan pokazatelj homofilije po atributu (Jackson, 2010; Currarini, Jackson, & Pin, 2009)
Opći nalaz u društvenim mrežama: homofilija po rasi/etnicitetu, dobi, obrazovanju itd. kao robustan empirijski obrazac (“birds of a feather”). (Jackson, 2010; McPherson, Smith-Lovin, & Cook, 2001)
Svjetska turistička mreža: turisti/tokovi se koncentriraju oko bliskih “centralnih” destinacija i njihovih satelita; iako to nije čista homofilija po atributu, interpretirano je kao rezultat segmentacije tržišta i regionalnih/ekonomskih sličnosti koje stabiliziraju tokove. (Kostelić & Turk, 2021). Zajednice koje se dobiju metodama grupiranja odražavaju geografske i kulturne bliskosti, a raniji rad (Seok i sur., 2020) posebno naglašava zajednički jezik kao element kulturne bliskosti u klasteriranju zemalja (Seok et al., 2020; Kostelić & Turk, 2021).
Mreže povjerenika (Confidants): Nacionalna istraživanja u SAD-u (GSS) pokazuju ekstremnu rasnu homofiliju – samo 8% ljudi ima barem jednu osobu druge rase s kojom “razgovara o važnim stvarima”. Homofilija je također prisutna u pogledu spola, religije i obrazovanja među bliskim prijateljima (Jackson, 2010; Rawlings i sur., 2023; McLevey, Scott & Carrington, 2024).
Spolna homofilija kroz životni vijek: Kod djece je homofilija po spolu gotovo isključiva, relaksira se u adolescenciji s pojavom romantičnih veza, ali se ponovno pojačava kod stabilnih parova kako bi se izbjegle sumnje u izvanbračne interese (McLevey, Scott & Carrington, 2024).
Politička i ideološka homofilija: Na platformama poput Twittera (danas X), homofilija se očituje u formiranju “echo chambers” (komora jeke) gdje korisnici komuniciraju prvenstveno s onima sličnih političkih orijentacija (Knoke i Yang, 2019).
Politička suradnja: Istraživanja suradnje među zastupnicima u Kongresu SAD-a potvrđuju homofiliju kao ključni mehanizam formiranja koalicija (McLevey, Scott & Carrington, 2024).

Obrasci jezgre i periferije

Obrasci jezgre i periferije opisuju makro-strukturu mreže u kojoj se izdvajaju dva kvalitativno različita dijela: jezgra kao relativno gusto i međusobno povezano “središte” te periferija kao rjeđe povezan “rub” koji se često oslanja na jezgru. Ovo je prirodno mjesto za povezivanje dviju razina analize. S jedne strane, k-core daje jasnu i računski jednostavnu operacionalizaciju jezgre: čvorovi s visokim coreness pripadaju najdubljim kohezivnim slojevima mreže jer preživljavaju strože kriterije minimalnog stupnja unutar podgrafa. S druge strane, Jacksonova sistematizacija naglašava da se u različitim tipovima mreža pojavljuju tipični, empirijski prepoznatljivi obrasci jezgre i periferije: u društvenim i ekonomskim mrežama jezgra često reflektira stabilne krugove intenzivne interakcije i utjecaja, dok u tehnološkim i biološkim mrežama jezgra češće odgovara infrastrukturnim komponentama koje omogućuju funkcioniranje cijelog sustava, pri čemu periferija čini mnoštvo specijaliziranih elemenata s malo međusobnih veza.

Važno je razlikovati “jezgru” kao visok coreness od “jezgre” kao core–periphery uzorka. Visok coreness sam po sebi znači da je čvor u kohezivnom dijelu mreže (lokalno/mezostrukturno robustan prema iterativnom uklanjanju slabo povezanih čvorova), ali “prava” jezgra u smislu jezgra–periferija obrasca zahtijeva dodatno da jezgreni čvorovi budu međusobno gusto povezani (jezgra–jezgra veze čine gust blok), dok periferija ima relativno malo periferija–periferija veza te se dominantno veže prema jezgri. Stoga interpretacija u ovom poglavlju ide u dva koraka:

identificiramo jezgru preko visokog coreness (npr. \(k_{\max}\)-core ili prag), a zatim
provjeravamo topološki obrazac veza između četiri tipa parova: jezgra–jezgra, jezgra–periferija, periferija–jezgra i periferija–periferija.

Ako uočimo visoku gustoću jezgra–jezgra i nisku gustoću periferija–periferija, uz dominantno “naslanjanje” periferije na jezgru, tada možemo zaključiti da mreža doista pokazuje izražen jezgra–periferija obrazac, a ne samo postojanje kohezivnih slojeva.

# pretpostavka: V(g_soc)$cp je već definiran ("jezgra"/"periferija")

# podgrafovi jezgre i periferije
g_soc_core <- induced_subgraph(g_soc, V(g_soc)[cp == "jezgra"])
g_soc_peri <- induced_subgraph(g_soc, V(g_soc)[cp == "periferija"])

# gustoće unutar skupina
dens_soc_JJ <- edge_density(g_soc_core, loops = FALSE)
dens_soc_PP <- edge_density(g_soc_peri, loops = FALSE)

# gustoće između skupina (udio realiziranih veza od A prema B / |A|·|B|)
A_soc <- as.matrix(as_adjacency_matrix(g_soc, sparse = FALSE))
idxJ_soc <- which(V(g_soc)$cp == "jezgra")
idxP_soc <- which(V(g_soc)$cp == "periferija")

dens_soc_JP <- sum(A_soc[idxJ_soc, idxP_soc] > 0) / (length(idxJ_soc) * length(idxP_soc))
dens_soc_PJ <- sum(A_soc[idxP_soc, idxJ_soc] > 0) / (length(idxP_soc) * length(idxJ_soc))

# udjeli bridova po tipu (JJ, JP, PJ, PP)
ee_soc <- ends(g_soc, E(g_soc))
from_soc <- V(g_soc)[ee_soc[, 1]]$cp
to_soc   <- V(g_soc)[ee_soc[, 2]]$cp
prop_soc <- prop.table(table(paste(from_soc, to_soc, sep = "->")))

c(dens_JJ = dens_soc_JJ, dens_PP = dens_soc_PP, dens_JP = dens_soc_JP, dens_PJ = dens_soc_PJ)

##    dens_JJ    dens_PP    dens_JP    dens_PJ 
## 0.23809524 0.00000000 0.08712121 0.08712121

prop_soc

## 
##     jezgra->jezgra jezgra->periferija periferija->jezgra 
##          0.7051282          0.1282051          0.1666667

U društvenoj mreži gustoća unutar jezgre iznosi \(\text{dens}*{JJ} = 0.238\), dok je gustoća unutar periferije praktički jednaka nuli \(\text{dens}*{PP} = 0\). To znači da se periferni članovi gotovo uopće ne povezuju međusobno, nego svoje veze primarno ostvaruju prema jezgri. Upravo je to klasični obrazac jezgra–periferija: jezgra je međusobno povezana, periferija nije.

Gustoće između skupina su simetrične i relativno niske, \(\text{dens}*{JP} = \text{dens}*{PJ} \approx 0.087\), što znači da postoji umjerena količina veza između jezgre i periferije, ali su one rjeđe od veza unutar jezgre.

Još jasniji uvid daje distribucija bridova:

oko 70.5% svih bridova je unutar jezgre,
oko 12.8% ide iz jezgre prema periferiji,
oko 16.7% iz periferije prema jezgri,
nema bridova unutar periferije.

To implicira da je društvena mreža izrazito centralizirana oko jezgre. Periferija je strukturno ovisna o jezgri i ne tvori samostalne blokove. U kontekstu karate kluba, to znači da ključne interakcije i dinamika kluba proizlaze iz međusobno povezanih centralnih aktera, dok periferni članovi sudjeluju primarno kroz odnose s jezgrinim članovima.

Ovo je vrlo čist primjer topološkog obrasca jezgra–periferija kakav se često opisuje u društvenim mrežama: elita je kohezivna, periferija fragmentirana.

# analiziramo g_tech na istoj verziji grafa na kojoj je cp definirana
# ovdje uzimamo neusmjereni prikaz (kao u ranijim dijelovima)
# pretpostavka: V(g_tech)$cp je već definiran ("jezgra"/"periferija")

g_tech_core <- induced_subgraph(g_tech, V(g_tech)[cp == "jezgra"])
g_tech_peri <- induced_subgraph(g_tech, V(g_tech)[cp == "periferija"])

dens_tech_JJ <- edge_density(g_tech_core, loops = FALSE)
dens_tech_PP <- edge_density(g_tech_peri, loops = FALSE)

A_tech <- as.matrix(as_adjacency_matrix(g_tech, sparse = FALSE))
idxJ_tech <- which(V(g_tech)$cp == "jezgra")
idxP_tech <- which(V(g_tech)$cp == "periferija")

dens_tech_JP <- sum(A_tech[idxJ_tech, idxP_tech] > 0) / (length(idxJ_tech) * length(idxP_tech))
dens_tech_PJ <- sum(A_tech[idxP_tech, idxJ_tech] > 0) / (length(idxP_tech) * length(idxJ_tech))

ee_tech <- ends(g_tech, E(g_tech))
from_tech <- V(g_tech)[ee_tech[, 1]]$cp
to_tech   <- V(g_tech)[ee_tech[, 2]]$cp
prop_tech <- prop.table(table(paste(from_tech, to_tech, sep = "->")))

c(dens_JJ = dens_tech_JJ, dens_PP = dens_tech_PP, dens_JP = dens_tech_JP, dens_PJ = dens_tech_PJ)

##    dens_JJ    dens_PP    dens_JP    dens_PJ 
## 0.18044355 0.01696833 0.03365385 0.04387019

prop_tech

## 
##         jezgra->jezgra     jezgra->periferija     periferija->jezgra 
##              0.5070822              0.1586402              0.2067989 
## periferija->periferija 
##              0.1274788

U tehnološkoj mreži obrazac je također prisutan, ali manje ekstreman. Gustoća unutar jezgre iznosi \(\text{dens}_{JJ} \approx 0.361\), što znači da su jezgreni paketi vrlo gusto međusobno povezani (ovisnosti među infrastrukturnim paketima). Za razliku od društvene mreže, periferija ovdje ipak ima određenu unutarnju povezanost (\(\text{dens}_{PP} \approx 0.034\)). Dakle, i periferni paketi ponekad ovise jedni o drugima, iako znatno rjeđe nego jezgreni paketi. Gustoće između jezgre i periferije su relativno niske (\(\text{dens}*{JP} = \text{dens}*{PJ} \approx 0.078\)).

Distribucija bridova dodatno pojašnjava strukturu:

oko 50.7% svih bridova je unutar jezgre,
oko 18.3% ide iz jezgre prema periferiji (u neusmjerenom grafu),
oko 18.3% iz periferije prema jezgri,
oko 12.7% unutar periferije.

Za razliku od karate mreže, ovdje jezgra ne monopolizira gotovo sve veze. I dalje je dominantna, ali postoji veća razina horizontalne povezanosti i u ostatku sustava.

U društvenoj mreži dobivamo gotovo idealno tipični core–periphery obrazac:

kohezivna jezgra,
potpuno fragmentirana periferija,
snažna ovisnost periferije o jezgri.

U tehnološkoj mreži obrazac je također prisutan, ali blaži:

jezgra je izrazito kohezivna,
periferija ima minimalnu, ali realnu unutarnju povezanost,
sustav je manje hijerarhijski nego društvena mreža.

To je u skladu s Jacksonovim opažanjima da tehnološke mreže često imaju jezgru infrastrukturnih elemenata, ali istodobno zadržavaju određenu strukturnu redundanciju. Društvena mreža, s druge strane, pokazuje izraženiji elitni blok i slabiju autonomiju periferije.

Možemo zaključiti:

u karate klubu jezgra nosi strukturu i periferija je strukturno ovisna,
u ekosustavu R paketa jezgra je ključna, ali sustav nije potpuno monocentričan — postoji određena modularna i redundantna organizacija.

To je vrlo lijep primjer kako se isti koncept (jezgra–periferija) manifestira različito u društvenom i tehnološkom sustavu, te kako emergentna topologija odražava funkcionalnu logiku tih sustava.

WTW: autori eksplicitno opisuju jezgru (mali skup centralnih zemalja s mnogo veza) i periferiju (mnogo zemalja s malo veza); identificirano je 187 zemalja u centru (ekscentričnost 2) i 55 u periferiji. Zemlje bliže centru tipično imaju više centralnosti, ali zanimljivo je da neke periferne zemlje imaju relativno velike stupnjeve (npr. Puerto Rico), no povezane su tako da do drugih čvorova imaju veće geodetske udaljenosti. Autori dodatno napominju da dio „izoliranih” perifernih čvorova može odražavati nedostatke podataka, a ne stvarno odsustvo veza (Kostelić & Turk, 2021)
Organizacijske mreže (brokerage/strukturne rupe): Jackson navodi radove koji jezgru/periferiju povezuju s brokerima i strukturnim rupama (akteri koji spajaju dijelove mreže). (Burt, 1992; Jackson, 2010)
Trgovinske mreže: primjeri gdje se “jezgra” sastoji od najpovezanijih aktera, dok je veći dio mreže periferno vezan uz jezgru (core–periphery organizacija u međunarodnoj razmjeni). (Jackson, 2010; Serrano & Boguñá, 2003)

Uloga slabih veza

Koncept slabih veza (weak ties) potječe iz ideje da veze različite “snage” (težine) imaju različite strukturne funkcije. Jake veze tipično nastaju unutar kohezivnih skupina (obitelj, bliski prijatelji, intenzivne suradnje, politički blokovi) i doprinose stabilnosti i povjerenju, ali su često redundantne jer su susjedstva jakih veza međusobno preklopljena. Slabe veze, iako pojedinačno nose manje interakcija ili povjerenja, često imaju ključnu emergentnu ulogu: one “prespajaju” inače odvojene dijelove mreže i omogućuju pristup novim informacijama, resursima i prilikama izvan vlastite zajednice. U SNA je upravo taj uvid bio presudan jer pokazuje da važnost veze ne proizlazi samo iz intenziteta, nego iz njezine pozicije u mreži. Slaba veza može biti strukturno kritična ako povezuje zajednice, odnosno ako reducira udaljenost između klastera i otvara nove putove difuzije.

Granovetter (1973) pokazuje da slabe veze (npr. poznanstva, povremeni kontakti) često imaju veću informacijsku vrijednost od jakih veza (bliskih prijatelja), upravo zato što povezuju različite društvene krugove. Jake veze obično se nalaze unutar gusto povezanih skupina u kojima je susjedstvo redundantno — “svi već znaju iste ljude i iste informacije”. Slabe veze, naprotiv, često povezuju strukturno udaljene dijelove mreže i omogućuju pristup novim informacijama. Ključna ideja nije u “intenzitetu” veze, nego u topološkoj poziciji. Slaba veza je često most između klastera. Upravo ta mostovna funkcija daje joj disproporcionalnu važnost za:

difuziju informacija,
pronalazak posla (Granovetterov originalni empirijski primjer),
inovacije,
širenje ideja.

U kontekstu detekcije zajednica, jednostavna operacionalizacija “slabe veze” jest promatrati bridove koji spajaju različite zajednice (cross-community edges). Takvi bridovi nisu nužno slabi u smislu težine, ali često imaju istu funkcionalnu ulogu kao slabe veze u Granovetterovom smislu: oni prenose informacije iz jedne mezostrukture u drugu. Broj i udio takvih bridova daje neposredan uvid u to koliko je mreža “modularna i zatvorena” (malo međuzajedničkih veza) naspram “propusna” (više međuzajedničkih veza). Ako je udio mostova između zajednica malen, difuzija ide sporije i više ovisi o nekoliko ključnih veza; ako je veći, mreža je integriranija i otpornija na prekid pojedinačnih veza.

ee <- ends(g_soc, E(g_soc))          # matrica imena vrhova (character)
i  <- match(ee[, 1], V(g_soc)$name)  # indeksi vrhova
j  <- match(ee[, 2], V(g_soc)$name)

E(g_soc)$bridge_comm <- V(g_soc)$comm[i] != V(g_soc)$comm[j]

table(E(g_soc)$bridge_comm)

## 
## FALSE  TRUE 
##    64    14

mean(E(g_soc)$bridge_comm)

## [1] 0.1794872

E(g_soc)$color <- ifelse(E(g_soc)$bridge_comm, "#8c6f3f", "grey80")
E(g_soc)$width <- ifelse(E(g_soc)$bridge_comm, 2.5, 1)

plot(g_soc,
     layout = lay_s,
     vertex.color = V(g_soc)$comm,
     vertex.size = 6,
     vertex.label = NA,
     main = "Slabe veze (cross-community bridovi) – karate mreža")

U društvenoj mreži (karate klub) dobivamo 14 bridova koji spajaju različite zajednice, naspram 64 unutar-zajedničkih, pa je udio “međuzajedničkih” veza približno 0.18. To znači da je većina interakcija zatvorena unutar kohezivnih blokova, a relativno mali broj veza održava prohodnost između zajednica. U Granovetterovom smislu, upravo takve veze često funkcioniraju kao “slabe” ne zbog intenziteta, nego zbog topološke uloge: one nose nesrazmjerno velik dio potencijalne difuzije između grupa.

Interpretativno, u karate mreži takvi bridovi najčešće predstavljaju upravo one odnose koji povezuju frakcije ili podskupine unutar frakcija. Iako su numerički rijetki, oni su strukturno važni jer održavaju prohodnost između zajednica te mogu “odgoditi” polarizaciju: dok god postoje, informacija (ili utjecaj) može relativno lako prelaziti iz jedne zajednice u drugu. Kada se takve veze prekinu (socijalno: prekid komunikacije; strukturno: uklanjanje bridova ili brokera), mreža postaje modularnija, zajednice se izoliraju, a difuzija se sve više odvija unutar vlastitih blokova. U tehnološkoj analogiji, cross-community ovisnosti su “integracijske” ovisnosti: one omogućuju interoperabilnost modula, ali i stvaraju kanale preko kojih se kvar ili promjena može preliti iz jednog modula u drugi—zato je važno razlikovati integraciju koja povećava funkcionalnost od integracije koja povećava sistemski rizik.

ee <- ends(g_tech, E(g_tech))          # matrica imena vrhova (character)
i  <- match(ee[, 1], V(g_tech)$name)  # indeksi vrhova
j  <- match(ee[, 2], V(g_tech)$name)

E(g_tech)$bridge_comm <- V(g_tech)$comm[i] != V(g_tech)$comm[j]

table(E(g_tech)$bridge_comm)

## 
## FALSE  TRUE 
##   260    93

mean(E(g_tech)$bridge_comm)

## [1] 0.2634561

U tehnološkoj mreži (R paketi) udio bridova između zajednica je veći, oko 0.30 (210 od 706). To sugerira da je ekosustav istodobno modularan (postoje zajednice), ali i integriran: moduli nisu izolirani, nego su povezani velikim brojem “integracijskih” ovisnosti. Funkcionalno, to je očekivano jer paketi često služe kao infrastruktura koja se koristi u više tematskih skupina, pa veze između zajednica predstavljaju interoperabilnost. Istodobno, veći udio takvih veza znači i veću mogućnost “prelijevanja” učinaka: promjena, kvar ili sigurnosni problem u jednom modulu lakše se prenosi na druge. Zato je u tehnološkom kontekstu korisno naglasiti dvojnu prirodu “slabih veza”: one povećavaju funkcionalnost i povezivost sustava, ali mogu povećati i sustavni rizik širenja grešaka ili ranjivosti.

E(g_tech)$color <- ifelse(E(g_tech)$bridge_comm, "#8c6f3f", "grey80")
E(g_tech)$width <- ifelse(E(g_tech)$bridge_comm, 2.5, 1)

plot(g_tech,
     layout = lay_t,
     vertex.color = V(g_tech)$comm,
     vertex.size = 6,
     vertex.label = NA,
     edge.arrow.size = 0.5,
     main = "Slabe veze (cross-community bridovi) – mreža R paketa")

Traženje posla: Granovetterov klasični nalaz da “slabe veze” često donose novu informaciju (npr. o poslovima) jer povezuju različite društvene krugove – mehanizam bridging veza. U svojoj izvornoj studiji u Amherstu, Massachusetts, Granovetter je pokazao da ljudi češće dolaze do informacija o novim poslovima putem slabih veza (poznanika) nego putem jakih veza (bliskih prijatelja i obitelji) (Granovetter, 1973; Jackson, 2010)
Svjetska turistička mreža: zbog vrlo visokog klasteriranja, važnost većine veza je relativno mala, jer su susjedi često već međusobno povezani, što je tipično okruženje gdje su bridging veze (često slabije po intenzitetu) ključne za spajanje gustih lokalnih klika i prijenos između grupa. Slabije, rjeđe veze između udaljenijih/regionalno nepovezanih destinacija mogu biti ključne za prijenos šokova (npr. prekidi putovanja, zabrane) jer spajaju inače slabo povezane dijelove sustava. (Kostelić & Turk, 2021)
Organizacija u poduzeću - Istraživanje Hansena (1999) pokazalo je da slabe veze ubrzavaju potragu za informacijama u drugim dijelovima organizacije, iako jake veze mogu biti učinkovitije za sam transfer kompleksnog znanja.

Svojstva difuzije

Difuzija je emergentno svojstvo mreže jer se ne može razumjeti promatrajući samo pojedinačne čvorove ili pojedinačne veze: brzina i doseg širenja ovise o tome kako su lokalne interakcije “posložene” u cjelinu. U društvenim mrežama difuzija tipično znači širenje informacija, normi ili ponašanja, dok u tehnološkim mrežama analogno govorimo o širenju ranjivosti, kvarova ili ovisnosti (npr. propagacija problema kroz ekosustav paketa). U biološkim sustavima možemo promatrati širenje bolesti ili prodiranje signala (npr. u mozgu), pa čak i širenje šumskih požara. U svakom slučaju, ključna je prohodnost: koliko brzo i preko koliko alternativnih ruta nešto može doći od jednog dijela mreže do drugog, te postoje li “uska grla” (bridging veze i brokeri) koja difuziju ubrzavaju ili blokiraju.

Osnovni indikatori difuzije mreže

# prosječna duljina putova
# za neusmjerene mreže (karate): standardno
mean_distance(g_soc, directed = FALSE, unconnected = TRUE)

## [1] 5.754011

# za tehnološku mrežu: imate dvije smisleno različite opcije
# 1) difuzija koja ignorira smjer (strukturna prohodnost modula)
mean_distance(as_undirected(g_tech, mode = "collapse"), directed = FALSE, unconnected = TRUE)

## [1] 2.51004

# 2) difuzija koja poštuje smjer (funkcionalna prohodnost po usmjerenim putevima)
#    ovo je relevantno ako želite modelirati "što može doći do čega" uz poštivanje smjera ovisnosti
mean_distance(g_tech, directed = TRUE, unconnected = TRUE)

## [1] 1.894681

# udio bridging bridova (između zajednica) – aproksimacija kanala difuzije
mean(E(g_soc)$bridge_comm)

## [1] 0.1794872

mean(E(g_tech)$bridge_comm)

## [1] 0.2634561

Napomena: unconnected = TRUE računa prosjek nad dostižnim parovima; ako mreža ima više komponenti, to je prirodniji izbor u uvodnoj analizi, jer inače nedostižni parovi daju beskonačne udaljenosti.

Dobiveni “osnovni indikatori difuzije” zajedno daju sliku o tome koliko je mreža pogodna za širenje procesa i kroz koje strukturne kanale. Prosječna duljina putova (mean distance) mjeri tipičan broj koraka potreban da se dosegne jedan čvor iz drugoga; što je vrijednost manja, to se informacija/zaraza/utjecaj može širiti brže jer je mreža “kompaktnija”. S obzirom da za karatem mrežu `mean_distance() daje veliku vrijednost, možemo još provjeriti i dijametar mreže.

diameter(g_soc, directed=FALSE)

## [1] 13

Uz ovako veliki dijametar ima smisla da karate mreži dobivamo \(\bar{d}\approx 5.75\), što je relativno velika vrijednost za malu mrežu od 34 čvora i sugerira da je struktura difuzije u prosjeku “udaljenija”: informacije često prolaze kroz više posrednika prije nego dođu do periferije. To je konzistentno s činjenicom da karate mreža ima izraženu mezostrukturu (zajednice) i da nije ekstremno gusta; moguća je globalna difuzija (mreža je povezana), ali prosječni put do udaljenijih dijelova nije kratak.

Za tehnološku mrežu dobivamo \(\bar{d}\approx 2.51\) u obje varijante (neusmjerena projekcija i usmjereni graf). Ta razlika u odnosu na karate mrežu je interpretativno važna: tehnološki ekosustav paketa je strukturno “bliži” – većina čvorova je u prosjeku udaljena svega 2–3 koraka. To znači da se difuzija (npr. širenje promjene, kvara, kompatibilnosti ili informacijskog signala) može vrlo brzo proširiti kroz sustav. Posebno je zanimljivo da je vrijednost praktički ista i kada poštujemo smjer. U terminima funkcionalne prohodnosti to sugerira da smjer ovisnosti u ovom konkretnom uzorku ne uvodi dodatne barijere dostižnosti na razini putova - barem ne u prosjeku.

Drugi indikator, udio bridging bridova (mostova) između zajednica, aproksimira koliko “kanala” postoji koji prespajaju modularne blokove i time omogućuju prelijevanje difuzije iz jedne zajednice u drugu. U karate mreži taj udio iznosi oko 0.18 (\(≈ 18%\)), što znači da je većina veza unutar zajednica, a manji dio služi kao međuzajednički most. To je upravo obrazac u kojem zajednice djeluju kao djelomične barijere: unutar zajednice difuzija je brza, ali za prelazak u druge zajednice treba relativno malo specifičnih veza. U tehnološkoj mreži udio bridging bridova je oko 0.30 (\(≈ 30%\)), što upućuje na jaču međumodularnu isprepletenost: zajednice postoje (modularnost je umjerena), ali granice među njima su “propusnije” u odnosu na mrežu karate kluba. Posljedično, difuzija će se lakše prelijevati između modula, a sustav će brže postizati globalnu zahvaćenost, što je u skladu s niskom prosječnom duljinom putova.

U kombinaciji, ova dva indikatora daju sažetu, ali snažnu interpretaciju: karate mreža je difuzijski sporija jer ima veće tipične udaljenosti i manje međuzajedničkih veza, pa širenje više ovisi o relativno malom broju mostova; tehnološka mreža je difuzijski “agresivnija” jer je kompaktnija (kratki putevi) i ima veći udio bridova koji prespajaju zajednice, pa se proces lako prebacuje između modula.

Klasičan formalni okvir za ilustraciju difuzije je SIR model (Susceptible–Infected–Recovered), izvorno razvijen za epidemije, ali prirodna paralela za informacije i rizike. U SIR modelu svaki čvor u svakom trenutku pripada jednom od tri stanja:

(osjetljiv – još nije “zahvaćen”),
(zaražen/aktivan – trenutno širi) ili
(oporavljen/uklonjen – više ne širi).

Prijelazi su tipično: (S I) kada osjetljiv čvor dođe u kontakt s “aktivnim” susjedom, te (I R) kada aktivni čvor prestaje širiti (oporavak (ili smrt), gubitak interesa, patch).

Parametar () označava vjerojatnost prijenosa po kontaktu (koliko je difuzija “zarazna”), a () vjerojatnost oporavka po vremenskom koraku (koliko brzo čvor prestaje širiti). Model je jednostavan, ali koristan - pokazuje da se isti () i () mogu manifestirati posve različito ovisno o modularnosti, prosječnoj duljini putova i postojanju mostova između zajednica.

Formalni SIR model

SIR model (Susceptible–Infected–Recovered) klasičan je epidemiološki model koji opisuje dinamiku širenja zaraze u populaciji. U kontekstu mreža, populaciju zamjenjuju čvorovi, a potencijal prijenosa ovisi o postojanju brida između čvorova.

U kontinuiranom (determinističkom) obliku model se zapisuje sustavom diferencijalnih jednadžbi:

\[ \frac{dS}{dt} = -\beta \frac{S I}{N}, \]

\[ \frac{dI}{dt} = \beta \frac{S I}{N} - \gamma I, \]

\[ \frac{dR}{dt} = \gamma I. \]

Gdje je:

\(S(t)\) broj osjetljivih (susceptible) u trenutku \(t\),
\(I(t)\) broj zaraženih (infected),
\(R(t)\) broj oporavljenih (recovered),
\(N = S + I + R\) ukupna populacija,
\(\beta\) stopa prijenosa,
\(\gamma\) stopa oporavka.

Interpretacija:

Član \(\beta \frac{SI}{N}\) predstavlja broj novih infekcija po jedinici vremena.
Član \(\gamma I\) predstavlja broj oporavaka po jedinici vremena.
Sustav čuva populaciju: \(S+I+R=N\).

Diskretna mrežna verzija

U mrežnoj simulaciji ne koristimo agregatni član \(\frac{SI}{N}\), nego radimo na razini čvorova i njihovih susjedstava.

U svakom diskretnom koraku vrijedi:

svaki zaraženi čvor \(i\) zarazi svakog osjetljivog susjeda \(j\) s vjerojatnošću \(\beta\),
svaki zaraženi čvor prelazi u stanje oporavljenog s vjerojatnošću \(\gamma\).

Ako označimo stanje čvora \(i\) u trenutku \(t\) s \(X_i(t) \in {S,I,R}\), tada prijelazi vrijede:

\[P\big(X_j(t+1)=I \mid X_j(t)=S\big)\]

\[1 - \prod_{i \in \mathcal{N}(j)} \big(1 - \beta \cdot \mathbf{1}_{{X_i(t)=I}}\big),\]

\[ P\big(X_i(t+1)=R \mid X_i(t)=I\big) = \gamma. \]

Gdje je:

\(\mathcal{N}(j)\) skup susjeda čvora \(j\),
\(\mathbf{1}_{{X_i(t)=I}}\) indikator da je susjed zaražen.

Ovdje se jasno vidi razlika između:

klasičnog masenog modela (miješana populacija),
mrežnog modela (lokalni kontakti određuju dinamiku).

U klasičnom modelu ključna veličina je osnovni reprodukcijski broj:

\[ R_0 = \frac{\beta}{\gamma}. \]

Ako je \(R_0 > 1\), infekcija se širi; ako je \(R_0 < 1\), epidemija se gasi.

U mrežama prag difuzije ovisi i o topologiji. U pojednostavljenom obliku prag je povezan s prosječnim stupnjem:

\[ R_0^{\text{network}} \approx \beta \frac{\langle k^2 \rangle}{\langle k \rangle} \frac{1}{\gamma}, \]

gdje su:

\(\langle k \rangle\) prosječni stupanj,
\(\langle k^2 \rangle\) drugi moment distribucije stupnja.

To pokazuje da mreže s velikom varijancom stupnja (npr. scale-free) imaju niži prag epidemije i podložnije su difuziji.

Postoje još i druge varijante (koje nećemo ovdje detaljnije razmatrati, ali možete samostalno potražiti):

SI model (bez oporavka),
SIS model (moguć povratak u S),
ili formalno povezati prag difuzije s eigenvalue spektralne radijacije matrice susjedstva (što je elegantno i matematički vrlo čisto).

U nastavku slijedi namjerno jednostavna, mini simulacija s diskretnim vremenom (bez dodatnih paketa): u svakom koraku svaki (I) čvor pokušava “zaraziti” svoje susjede s vjerojatnošću \(\beta\), a zatim prelazi u \(R\) s vjerojatnošću ().

sir_sim <- function(g, seed, beta = 0.2, gamma = 0.1, T = 30, directed = FALSE) {
  n <- vcount(g)
  state <- rep("S", n)
  state[seed] <- "I"
  
  # pomoćno: susjedi (ovisno o usmjerenosti)
  neigh <- function(v) neighbors(g, v, mode = if (directed) "out" else "all")
  
  out <- data.frame(t = 0:T, S = NA_integer_, I = NA_integer_, R = NA_integer_)
  
  for (t in 0:T) {
    out$S[t + 1] <- sum(state == "S")
    out$I[t + 1] <- sum(state == "I")
    out$R[t + 1] <- sum(state == "R")
    if (t == T) break
    
    I_nodes <- which(state == "I")
    new_I <- integer(0)
    
    # S -> I
    for (v in I_nodes) {
      nb <- as.integer(neigh(v))
      sus <- nb[state[nb] == "S"]
      if (length(sus) > 0) {
        infect <- sus[runif(length(sus)) < beta]
        new_I <- c(new_I, infect)
      }
    }
    new_I <- unique(new_I)
    
    # I -> R
    recover <- I_nodes[runif(length(I_nodes)) < gamma]
    
    # ažuriranje stanja
    state[new_I] <- "I"
    state[recover] <- "R"
  }
  
  out
}

set.seed(1)

# primjer: karate (neusmjereno)
seed_soc <- which(V(g_soc)$name == "Mr Hi")
sir_soc <- sir_sim(g_soc, seed = seed_soc, beta = 0.25, gamma = 0.10, T = 25, directed = FALSE)

# primjer: tehnološka (dvije perspektive - ovdje je undirected, niže grafički directed s `reverse edges`)
g_tech_und <- as_undirected(g_tech, mode = "collapse")
seed_tech <- which(V(g_tech_und)$name == "grDevices")  # primjer "infrastrukturnog" paketa
sir_tech_und <- sir_sim(g_tech_und, seed = seed_tech, beta = 0.20, gamma = 0.10, T = 25, directed = FALSE)

# prikaz rezultata (tablično; lako se kasnije nacrta npr. linijski graf)
head(sir_soc, 5)

##   t  S  I R
## 1 0 33  1 0
## 2 1 29  5 0
## 3 2 25  9 0
## 4 3 20 14 0
## 5 4 13 20 1

tail(sir_soc, 5)

##     t S I  R
## 22 21 0 7 27
## 23 22 0 6 28
## 24 23 0 6 28
## 25 24 0 5 29
## 26 25 0 5 29

U početku imamo 33 osjetljiva čvora i 1 zaraženog. Već do \(t=4\) broj zaraženih raste na 20, dok je 13 još uvijek osjetljivo. To znači da se zaraza vrlo brzo širi kroz mrežu – što je konzistentno s činjenicom da je mreža:

povezana (\(\omega(G)=1\)),
umjereno modularna (\(Q \approx 0.43\)),
relativno kratkih putova,
s prisutnim bridging vezama (\(≈ 18%\)).

Brzi rast broja zaraženih sugerira da zajednice nisu izolirane, postoje kanali između njih koji omogućuju prelazak infekcije. Nakon vrhunca (oko \(t=4\)–\(t=6\)) broj osjetljivih brzo pada na nulu, a sustav ulazi u fazu oporavka. Do kraja procesa ostaje 5 zaraženih i 29 oporavljenih.

Uočavamo da:

gotovo cijela mreža je zahvaćena (S → 0),
infekcija se relativno brzo stabilizira,
mreža ne ostavlja „zaštićene” džepove osjetljivih čvorova.

To implicira da mezostruktura (tri zajednice) nije dovoljno jaka da zaustavi difuziju. Drugim riječima, iako postoji modularnost, ona nije barijera za globalno širenje. Difuzija je ovdje globalna i potpuna.

To je tipičan obrazac male, kohezivne društvene mreže s dovoljno bridging veza.

Unatoč iščitavanju relevantnih informacija iz podataka, često je intuitivnije vizualizirati ovaj proces. Na sljedećoj animaciji prikazana je propagacija širenja (recimo, informacije) putem SIR modela u društvenoj mreži.

SIR - karate klub

head(sir_tech_und, 5)

##   t  S  I R
## 1 0 83  1 0
## 2 1 82  2 0
## 3 2 74 10 0
## 4 3 63 20 1
## 5 4 46 34 4

tail(sir_tech_und, 5)

##     t S I  R
## 22 21 8 9 67
## 23 22 8 9 67
## 24 23 8 8 68
## 25 24 8 6 70
## 26 25 8 4 72

U tehnološkoj mreži početno stanje čine 83 osjetljiva i 1 zaraženi čvor. Rast je još brži i intenzivniji nego u društvenoj mreži:

do \(t=4\) već je 54 zaraženih,
broj osjetljivih pada na 28,
većina sustava je zahvaćena vrlo rano.

To je u skladu s:

većom veličinom mreže,
većom jezgrom (k-core do 7),
većim udjelom bridging bridova (≈ 30%).

Međutim, za razliku od karate mreže, ovdje na kraju procesa ne nestaju svi osjetljivi čvorovi – ostaju 2 čvora koji nikada nisu zahvaćeni.

To sugerira da:

postoje periferni paketi koji nisu povezani s glavnim tokovima difuzije,
ili se nalaze u strukturnim „džepovima” koji nisu dostupni iz inicijalnog izvora,
ili pripadaju slabije integriranom modulu.

Ovo je važna razlika: tehnološka mreža pokazuje djelomičnu strukturnu otpornost na potpunu saturaciju.

Sljedeća animacija ilustrira širenje rizika (npr. neka nefunkcionalnost) u mreži R paketa.

SIR - R paketi

U mreži s većim udjelom bridging veza i kraćim prosječnim putevima difuzija će brže prelaziti između zajednica i zahvatiti veći dio mreže. U karate mreži, manji udio bridging bridova (mostova) sugerira da difuzija između frakcijskih blokova ovisi o relativno malom broju kanala; zato prekid nekoliko veza ili uklanjanje brokera može dramatično smanjiti doseg širenja. U tehnološkoj mreži, veći udio mostova znači veću integriranost modula: to povećava funkcionalnost (interoperabilnost), ali istodobno olakšava prelijevanje rizika između modula, što je upravo razlog zašto se u cyber-kontekstu difuzija ranjivosti često promatra kao sistemski, a ne lokalni problem.

Svjetska turistička mreža – “kompartmentalizacija” kao mjera za usporavanje širenja: simulacija ciljanog uklanjanja top čvorova po betweenness povećava broj zajednica i produljuje putove; npr. nakon uklanjanja \(~50%\) top-betweenness čvorova autori navode metrike poput diameter = 8, avg. path length ≈ 2.29, density ≈ 0.044 i 31 zajednicu, a nakon 60% mreža postaje snažno fragmentirana (mnogo izoliranih čvorova) (Kostelić & Turk, 2021)
Difuzija poljoprivredne inovacije (hibridni kukuruz): klasičan empirijski primjer difuzije inovacije kroz društvene/geo mreže (Jackson, 2010; Ryan & Gross, 1943)
Difuzija telefona (Švedska): Hägerstrandov primjer prostorno-mrežne difuzije tehnologije (Hägerstrand, 1967; Jackson, 2010)
Difuzija medicinske inovacije (lijek među liječnicima): Coleman–Katz–Menzel primjer širenja usvajanja lijeka kroz mrežu liječnika (Coleman, Katz, & Menzel, 1957; Jackson, 2010)
“Zaraznost” ponašanja (pretilost): Jackson navodi Christakis & Fowler (2007) kao primjer difuzije/klasteriranja ponašanja kroz društvene mreže. (Christakis & Fowler, 2007; Jackson, 2010)
Ekonomske mreže i kaskadni neuspjesi: U mrežama opskrbnih lanaca, kolaps jednog čvora može uzrokovati kaskadne neuspjehe kroz cijeli sustav ovisnosti (Fagiolo i sur., 2009).

Ovime smo već dotaknuli temporalni aspekt i dinamiku mreža, što je zasebna i opsežna tema koja premašuje opseg našeg fokusa. Stoga se ovdje zaustavljamo po pitanju dinamike i prelazimo na sljedeće svojstvo.

Small-World

Društvene i ekonomske mreže često pokazuju pozitivan assortativity, visoku klasterizaciju, obrasce jezgra–periferija, homofiliju i važnost slabih veza/strukturnih rupa; tehnološke i biološke mreže češće su disasortativne (Jackson, 2010).

„Small-world” naglašava malu prosječnu duljinu puta uz relativno visoku klasterizaciju, dok „scale-free” govori o raspodjeli stupnjeva s „debelim repom”; Jackson upozorava da mnoge mreže izgledaju „scale-free” vizualno, ali strogo ne slijede zakon potencije.

Mreža je small-world ako istodobno ima:

kratke prosječne udaljenosti (kao slučajna mreža),
visoku klasterizaciju7 tranzitivnost (kao društvena mreža).

Drugim riječima:

Svi su relativno blizu, ali lokalno postoje gusti klasteri.

Ovo je tipično za društvene mreže – poznati fenomen “šest stupnjeva razdvojenosti” kojeg smo ranije spominjali kod tipova mreža.

Small-world mreže karakterizira:

nizak \(\bar{d}\) (prosječna duljina puta),
visok koeficijent klasterizacije \(C\),
u usporedbi s nul-modelom (Erdős–Rényi).

Često se koristi omjer:

\[\sigma = \frac{C/C_{\text{rand}}}{L/L_{\text{rand}}}\]

Ako je \(\sigma > 1\), smatra se da mreža pokazuje small-world svojstva.

# small-world indikatori
diameter(g_soc)

## [1] 13

mean_distance(g_soc)

## [1] 5.754011

Prosječna duljina putova \(≈ 5.75\) znači da su članovi kluba međusobno povezani kroz relativno mali broj posrednika. Iako je mreža mala (34 čvora), vrijednost promjera 13 pokazuje da postoje i udaljeniji dijelovi mreže – što je očekivano kod strukture s frakcijama.

Mreža je globalno prohodna, ali ne ekstremno kompaktna.

transitivity(g_soc, type = "global")

## [1] 0.2556818

Vrijednost 0.256 znači da otprilike četvrtina potencijalnih trokuta doista postoji. To ukazuje na umjerenu lokalnu koheziju:

postoje zatvoreni krugovi,
ali mreža nije potpuno “klika-strukturirana”.

To je konzistentno s ranije uočenim zajednicama: postoji mezostruktura, ali ne potpuna fragmentacija.

assortativity_degree(g_soc)

## [1] -0.4756131

Vrijednost −0.476 je izraženo negativna.

To znači da se visoko povezani čvorovi (npr. Mr. Hi, John A) češće povezuju s čvorovima niskog stupnja nego međusobno.

Drugim riječima:

struktura je više “hub-and-spoke” nego “elita-s-elitom”.
lideri povezuju periferiju.

To je zanimljivo jer se u mnogim društvenim mrežama očekuje pozitivna asortativnost. Ovdje negativna vrijednost reflektira hijerarhijsku organizaciju s dominantnim centralnim akterima.

Karate mreža pokazuje:

relativno kratke putove
umjerenu tranzitivnost
prisutnost lokalnih klastera
globalnu povezanost

To znači da mreža ima elemente small-world strukture, ali s izraženom hijerarhijom i frakcijskim centrom.

diameter(g_tech)

## [1] 5

mean_distance(g_tech)

## [1] 1.894681

Prosječna duljina puta \(≈ 1.89\) je iznimno mala. To znači da je većina paketa udaljena jedva 1–2 koraka jedan od drugog. Funkcionalno, sustav je izuzetno prohodan. Promjer 5 znači da i najudaljeniji paketi nisu daleko. To je tipično za tehnološke i infrastrukturne mreže.

transitivity(g_tech, type = "global")

## [1] 0.3249661

Tranzitivnost od \(≈ 0.325\) je nešto viša nego u društvenoj mreži.

To znači da postoji značajna lokalna kohezija modula:

paketi unutar istog funkcionalnog sloja često su međusobno povezani,
postoje zatvoreni dependency krugovi ili usko integrirani podsustavi.

Ovo je u skladu s ranije identificiranim modularnim blokovima (tidyverse, statnet, dokumentacijski sloj itd.).

assortativity_degree(g_tech)

## [1] -0.2604261

Vrijednost −0.260 je negativna, ali slabije nego u društvenoj mreži.

To znači da:

paketi s velikim brojem ovisnosti (infrastrukturni paketi)
češće se povezuju s paketima manjeg stupnja

To je klasični hub-spoke tehnološki obrazac.

Takva struktura:

povećava učinkovitost
omogućuje modularnost
povećava ranjivost na kvar hubova

Small-world struktura posebno je važna za difuziju:

kratki putevi → brzo širenje
visoka tranzitivnost → lokalno zadržavanje
bridging veze → prelazak između klastera

Svjetska turistička mreža: pokazuje tipične small-world karakteristike: vrlo mali promjer (4) i prosječnu duljinu najkraćeg puta \(~1.66\), uz visoko klasteriranje (npr. prosječni clustering koeficijent \(0.8279\)). To znači da je mreža globalno „bliska” (malo koraka između zemalja) uz jaku lokalnu zbijenost (Kostelić & Turk, 2021). Ranije analize svjetskih turističkih mreža također su utvrdile small-world strukturu (Miguéns & Mendes, 2008; Lozano & Gutiérrez, 2018).
Milgramov “six degrees” eksperiment: mali broj koraka u društvenim mrežama kao empirijska motivacija za small-world perspektivu. (Jackson, 2010; Milgram, 1967)
E-mail komunikacija: Kasnije replikacije (Dodds, Muhamad & Watts, 2003) pomoću 50.000 ispitanika u 157 zemalja potvrdile su slične male udaljenosti na globalnoj razini
Mreža glumaca (collaboration network): Jackson navodi prosječnu udaljenost oko 3.7, kao ilustraciju kratkih putova u velikoj realnoj mreži. (Jackson, 2010; Watts & Strogatz, 1998)
Međunarodna trgovina: Mreže razmjene resursa funkcioniraju kao mali svjetovi jer omogućuju brz protok materije i prijenos ekonomskih šokova kroz sustav (Schweitzer i sur., 2009; Fagiolo, 2009)
Metaboličke mreže: Analize organizacije metabolizma (npr. kod E. coli) utvrdile su postojanje “malog svijeta unutar velikih metaboličkih mreža” (Wagner i Fell,).
Neuronska mreža: Neuronski sustavi u mozgu organizirani su modularno s prečicama koje omogućuju brzu obradu informacija uz minimalne energetske troškove (Barabási, 2014).

Scale-free

Scale-free mreže imaju:

teški rep distribucije stupnja
mali broj čvorova s vrlo velikim stupnjem (hubovi)
mnogo čvorova s malim stupnjem

Distribucija stupnja slijedi približno potencijsku funkciju:

\[P(k) \sim k^{-\gamma}\]

gdje je \(\gamma\) tipično između 2 i 3.

Scale-free mreže su:

robusne na slučajne kvarove
ranjive na ciljane napade na hubove

To je klasičan obrazac interneta, metaboličkih mreža i mnogih tehnoloških sustava.

Možemo vizualizirati distribuciju stupnja:

par(mfrow=c(3,2))
V(g_soc)$degree <- igraph::degree(g_soc)
plot(density(V(g_soc)$degree))
d <- igraph::degree(g_soc)
tab <- table(d)
plot(log(as.numeric(names(tab))),
     log(as.numeric(tab)),
     xlab = "log(k)",
     ylab = "log(P(k))")

V(g_tech)$indegree <- igraph::degree(g_tech, mode = "in")
plot(density(V(g_tech)$indegree))
d <- igraph::degree(g_tech, mode = "in")
tab <- table(d)
plot(log(as.numeric(names(tab))),
     log(as.numeric(tab)),
     xlab = "log(k)",
     ylab = "log(P(k))")

V(g_tech)$outdegree <- igraph::degree(g_tech, mode = "out")
plot(density(V(g_tech)$outdegree))
d <- igraph::degree(g_tech, mode = "out")
tab <- table(d)
plot(log(as.numeric(names(tab))),
     log(as.numeric(tab)),
     xlab = "log(k)",
     ylab = "log(P(k))")

Da bismo bolje razumjeli power law distribuciju, kratko ćemo se s njom upoznati. U “scale-free” kontekstu obično mislimo na diskretnu raspodjelu \(P(K=k)\propto k^{-\alpha}\) za \(\alpha>1\) (često \(2<\alpha<3\) u empirijskim primjerima). Za uvid u distribuciju, kreiramo vektor vrijednosti za vizualnu usporedbu:

# Diskretni power-law: P(K=k) ∝ k^(-alpha), k >= xmin
rpl_discrete <- function(n, alpha = 2.5, xmin = 1, xmax = 50) {
  stopifnot(n > 0, alpha > 1, xmin >= 1, xmax >= xmin)
  k <- xmin:xmax
  p <- k^(-alpha)
  p <- p / sum(p)
  sample(k, size = n, replace = TRUE, prob = p)
}

set.seed(1)
deg_pl <- rpl_discrete(n = 100, alpha = 2.5, xmin = 1, xmax = 50)
summary(deg_pl)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0     1.0     1.0     1.5     2.0    14.0

plot(density(deg_pl))

Ako želimo uspoređivati mreže (ne samo distribuciju), u igraph-u je najjednostavnije generirati mrežu preferencijalnim pripajanjem (Barabási–Albert tip), pa onda promatrati distribuciju stupnjeva. To je upravo standardna veza “rast + preferencijalno pripajanje → teški rep / power-law-like distribucija”.

set.seed(1)

g_pl <- sample_fitness_pl(
  no.of.nodes = 100,
  no.of.edges = 200,
  exponent.out = 2.5,   # power-law eksponent
  loops = FALSE,
  multiple = FALSE
)

deg <- igraph::degree(g_pl)
tab <- table(deg)

plot(density(deg))

plot(g_pl, Main = "Sintetička power-law mreža")

Nakon prvih uvida u power-law distribuciju, možemo zaključiti da je u pitanju asimetrična distribucija, s gomilanjem opažanja oko nižih vrijednosti. Također možemo primijetiti da ne možemo temeljem histograma stupnjeva čvora prepoznati radi li se o power-law distribuciji ili ne. Za to koristimo igraph funkciju power.law.fit().

power.law.fit(V(g_soc)$degree)

## $continuous
## [1] FALSE
## 
## $alpha
## [1] 2.126278
## 
## $xmin
## [1] 2
## 
## $logLik
## [1] -72.27394
## 
## $KS.stat
## [1] 0.09998308

U karate mreži procijenjeni eksponent iznosi približno \(α ≈ 2.13\), a minimalna vrijednost od koje model vrijedi je \(xmin = 2\). To znači da se power-law model pokušava prilagoditi gotovo cijeloj distribuciji stupnjeva (od stupnja 2 naviše).

Vrijednost \(α\) između 2 i 3 nalazi se upravo u rasponu koji se u literaturi najčešće navodi za društvene mreže. Takva vrijednost implicira:

postojanje nekoliko čvorova s relativno visokim stupnjem,
većinu čvorova s niskim stupnjem,
heavy-tail ponašanje (rep distribucije opada sporije od eksponencijalne).

To je u skladu s poznatom strukturom karate mreže: postoji nekoliko centralnih aktera (Mr. Hi, John A i nekoliko posrednika), dok većina članova ima relativno malo veza.

Međutim, treba naglasiti da je mreža vrlo mala (n = 34). U malim mrežama power-law procjene treba interpretirati oprezno jer rep distribucije sadrži vrlo malo točaka. KS statistika ≈ 0.10 nije velika, ali sama po sebi ne potvrđuje da je power-law najbolji model — samo govori koliko dobro se prilagođeni model uklapa u podatke.

Zaključno: karate mreža pokazuje indikacije heavy-tail strukture, ali zbog male veličine to je više ilustrativan nego čvrsto statistički dokaz scale-free svojstva.

power.law.fit(V(g_tech)$indegree)

## $continuous
## [1] FALSE
## 
## $alpha
## [1] 1.742952
## 
## $xmin
## [1] 1
## 
## $logLik
## [1] -182.2019
## 
## $KS.stat
## [1] 0.09678663

power.law.fit(V(g_tech)$outdegree)

## $continuous
## [1] FALSE
## 
## $alpha
## [1] 2.441212
## 
## $xmin
## [1] 4
## 
## $logLik
## [1] -96.21936
## 
## $KS.stat
## [1] 0.1115148

Ovdje je situacija bitno drugačija.

Procijenjeni eksponent je \(α ≈ 5.7\), što je vrlo visoka vrijednost. To znači da rep distribucije opada vrlo brzo. U praksi:

takva vrijednost ne ukazuje na klasičnu scale-free strukturu,
distribucija je mnogo bliža eksponencijalnoj nego tipičnom heavy-tail obrascu.

Drugi važan element je \(xmin = 16\). To znači da se power-law prilagođava samo čvorovima koji imaju stupanj ≥ 16. Drugim riječima, samo mali dio mreže (vrlo visoko povezani paketi) ulazi u procjenu repa distribucije.

To implicira:

samo nekoliko paketa ima izrazito visok stupanj,
većina mreže ne slijedi power-law,
power-law vrijedi samo za ekstremni rep.

To je zapravo tipično za mnoge tehnološke mreže koje nisu scale-free, nego pokazuju “truncated” ili “cutoff” ponašanje.

U kontekstu R paketa to ima smisla:

postoji mali broj infrastrukturnih paketa (npr. stats, utils, rlang),
ali ostatak mreže nema kontinuirani heavy-tail raspored,
ovisnosti su djelomično hijerarhijske i modulirane funkcionalnim blokovima.

Dakle, ova mreža nije klasična scale-free mreža, nego modularna mreža s ograničenim brojem hubova.

Utvrđeno je u skladu i s očekivanjem temeljem utvrđenih karakteristika mreža.

I zaključno, Jackson razlikuje tipične obrasce:

Svojstvo	Društvene mreže	Tehnološke mreže
Klasterizacija	visoka	niža
Assortativnost	često pozitivna	često negativna
Hubovi	umjereni	izraženi
Robustnost	umjerena	robusne na slučajne kvarove
Ranjivost	polarizacija	ciljani napadi na hubove

Većinu ovih obrazaca potvrdili smo u kontekstu analiziranih mreža. No, čak i svojstva koja odstupaju od očekivanja možemo kontekstualno objasniti kroz karakteristike mreža koje promatramo.

Svjetska turistička mreža: iako na prvi pogled stupnjevi mogu sugerirati power-law, detaljna provjera pokazuje vrlo slabo pristajanje (nisko objašnjena varijanca, neuobičajeno mali \(α\)), te zaključak da mreža nije scale-free; distribucije bolje opisuju Weibull (out/ukupno) i log-normal (in) (Kostelić & Turk, 2021).
Migracijska mreža: migracijske mreže su analizirane kao scale-free referentni primjer. (Simini et al., 2012)
Citatne mreže: Analize pokazuju da heavy-tailed distribucije citata slijede zakon potencije, što se pripisuje mehanizmu preferencijalnog vezivanja (“rich-get-richer”). Za in-degree citatne mreže utvrđen je \(γ≈2.79\) (Barabási, 2014).
Seksualni kontakti: Istraživanja sugeriraju beskalnu prirodu, što ima kritične implikacije za epidemiološke pragove (Barabási, 2014).
Mreže romantičnih veza i Ham radio komunikacija: Pokazuju visoke razine nasumičnosti i nisu beskalne (Barabási, 2014).
World Wide Web (WWW): Klasičan primjer beskalne mreže gdje ulazni stupanj (in-degree) i izlazni stupanj (out-degree) slijede zakon potencije. Istraživanja su utvrdila eksponente \(γ_{in}≈2.1\) i \(γ_{out}≈2.45\), a beskalna priroda perzistira kroz četiri reda veličine (Barabási, 2014).
Internet (razina usmjerivača): Infrastrukturna mreža koja se dobro aproksimira zakonom potencije s procijenjenim eksponentom \(γ≈3.42\) (Barabási, 2014).
Optimal traffic networks (transport/flow): neke mreže optimalnog prometa pokazuju scale-free značajke. (Barthélemy, 2011)
WWW – preferencijalno spajanje: Jackson navodi WWW kao empirijski motiv za mehanizam koji proizvodi power-law (preferential attachment u duhu Barabási–Albert). (Barabási & Albert, 1999; Jackson, 2010)
Metaboličke mreže (npr. E. coli): Smatraju se beskalnima s eksponentima \(γ_{in}≈2.43\) i \(γ_{out}≈2.90\) (Barabási, 2014).
Interakcije proteina: Također se navode kao sustavi s beskalnim svojstvima uz eksponent \(γ≈2.89\) (Barabási, 2014).
Iznimka: Neuronska mreža crva C. elegans i električna mreža (power grid) dokazano nisu beskalne, već se njihove distribucije stupnja bolje opisuju eksponencijalnom funkcijom (Barabási, 2014).

Važna napomena: primjenom strogih statističkih testova na korpusu od gotovo 1000 empirijskih mreža iz različitih domena, uključujući biološke, društvene, tehnološke i informacijske sustave, Broido i Clauset (2019) dokazuju da je snažna beskalna (scale-free) struktura u stvarnim mrežama zapravo rijetka pojava. Rezultati su pokazali da svega 4% analiziranih mreža pokazuje potrebnu razinu dokaza za beskalnu strukturu. Za većinu mreža (88%), log-normalna distribucija opisuje podatke o stupnjevima čvorova jednako dobro ili čak bolje nego zakon potencije (power law) koji karakterizira beskalne mreže.

Jedna od najpoznatijih tvrdnji beskalnih mreža je da je njihov prag za epidemije nula, što znači da se virusi ili informacije mogu beskonačno širiti čak i uz vrlo slabu zaraznost. Ako mreža nije beskalna, ovaj prag postaje pozitivan, što mijenja strategije za suzbijanje epidemija ili upravljanje kaskadnim rizicima u financijskim sustavima.

Korištenje beskalnih modela (poput Barabási-Albert modela) kao automatske polazišne točke za analizu bilo kojeg realnog sustava više se ne smatra empirijski utemeljenim. Istraživači i analitičari se sada potiču na provjeru alternativnih distribucija, poput log-normalne ili Weibull distribucije, koje često bolje opisuju podatke.

Umjesto jednog univerzalnog modela, mrežna znanost se mora okrenuti razumijevanju strukturne raznolikosti. Činjenica da su npr. društvene mreže u najboljem slučaju “slabo” beskalne, dok su neke biološke mreže “snažno” beskalne, sugerira da različite domene imaju specifične evolucijske mehanizme koji ne proizvode nužno isti rezultat.

Primjer: Twitter Congress

Ova mreža predstavlja skup podataka društvene mreže temeljen na interakcijama između članova 117. Kongresa Sjedinjenih Američkih Država između 9. veljače 2022. i 9. lipnja 2022. Skup podataka ima oblik usmjerene, ponderirane mreže u kojoj su težine rubova empirijski dobivene „vjerojatnost utjecaja“ između svih parova kongresmena. Twitterovo sučelje za programiranje aplikacija (API) V2 korišteno je za određivanje koliko je puta svaki član Kongresa retweetao, citirao tweet, odgovorio ili spomenuo druge članove Kongresa, a vjerojatnost utjecaja pronađena je normalizacijom zbrojnog utjecaja brojem tweetova koje je objavio svaki kongresmen. Korišten je Python paket Tweepy za interakciju s Twitterovim API-jem, i dohvaćeno je najnovijih 3200 tweetova svih članova 117. Kongresa Sjedinjenih Američkih Država. Iz ovog početnog skupa podataka tweetova isključeni su tweetovi koji su nastali izvan zajedničkog vremenskog prozora. Također su isključeni svi članovi Kongresa koji su tvitali manje od 100 puta tijekom tog vremenskog razdoblja. Zatim su preostali tweetovi korišteni za kvantificiranje vjerojatnosti da jedan korisnik utječe na drugog (putem retweetova, tvitova s citatima, odgovora ili spominjanja). Za više detalja pogledajte publikaciju Fink i sur. (2023), opis podataka Fink i sur. (2023) i SNAP.

Mi ćemo ovu mrežu koristiti za primjer strukture mreže.

library(tidyverse)
library(igraph)
library(sna)
library(ggraph)
library(tidygraph)
library(readr)

Učitavanje

# ovi podaci su zipani, pa tome prilagođevamo postupak za učitavanje

zip_url  <- "https://snap.stanford.edu/data/congress_network.zip"
zip_path <- file.path("data", "congress-twitter.zip")

if (!file.exists(zip_path)) {
  download.file(zip_url, destfile = zip_path, mode = "wb", quiet = TRUE)
}

# Raspakiravanje
unz_dir <- file.path("data", "unzipped")
dir.create(unz_dir, showWarnings = FALSE)

# raspakiramo samo ako je mapa prazna (ili gotovo prazna)
if (length(list.files(unz_dir, recursive = TRUE)) < 3) {
  unzip(zip_path, exdir = unz_dir)
}

# Provjerimo sadržaj raspakirane datoteke i zadamo put do congress.edgelist
edge_path <- file.path("data", "unzipped", "congress_network", "congress.edgelist")

edges_raw <- readr::read_table(
  edge_path,
  comment = "#",
  col_names = c("from", "to"),
  col_types = "cc"
) %>%
  filter(!is.na(from), !is.na(to)) %>%
  mutate(
    from = str_trim(from),
    to   = str_trim(to)
  )

edges_raw %>% dplyr::glimpse()

## Rows: 13,289
## Columns: 2
## $ from <chr> "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", "0", …
## $ to   <chr> "4", "12", "18", "25", "30", "46", "55", "58", "59", "74", "76", …

Provjera i uvid u graf

# Brza provjera dimenzija
dim(edges_raw)

## [1] 13289     2

head(edges_raw, 5)

## # A tibble: 5 × 2
##   from  to   
##   <chr> <chr>
## 1 0     4    
## 2 0     12   
## 3 0     18   
## 4 0     25   
## 5 0     30

# dva stupca su izvor i odredište
# definirani kao chr
# provjeravamo nedostaje li što
summary(is.na(edges_raw))

##     from             to         
##  Mode :logical   Mode :logical  
##  FALSE:13289     FALSE:13289

# Podaci izgledaju u redu, prelazimo na kreiranje grafa
library(igraph)
g <- graph_from_data_frame(edges_raw, directed = TRUE)
g

## IGRAPH 3c86fc5 DN-- 475 13289 -- 
## + attr: name (v/c)
## + edges from 3c86fc5 (vertex names):
##  [1] 0 ->4   0 ->12  0 ->18  0 ->25  0 ->30  0 ->46  0 ->55  0 ->58  0 ->59 
## [10] 0 ->74  0 ->76  0 ->77  0 ->85  0 ->86  0 ->87  0 ->154 0 ->168 0 ->341
## [19] 0 ->374 0 ->401 4 ->0   4 ->3   4 ->12  4 ->14  4 ->17  4 ->24  4 ->25 
## [28] 4 ->27  4 ->30  4 ->46  4 ->55  4 ->58  4 ->59  4 ->64  4 ->79  4 ->84 
## [37] 4 ->88  4 ->89  4 ->149 4 ->154 4 ->168 4 ->179 4 ->197 4 ->213 4 ->224
## [46] 4 ->243 4 ->250 4 ->268 4 ->286 4 ->293 4 ->315 4 ->374 4 ->401 4 ->447
## [55] 4 ->460 12->11  12->13  12->17  12->30  12->32  12->46  12->55  12->57 
## [64] 12->59  12->64  12->74  12->84  12->89  12->91  12->126 12->162 12->254
## + ... omitted several edges

vcount(g)

## [1] 475

ecount(g)

## [1] 13289

# Uklanjanje NA i samopetlji (provedemo za svaki slučaj)
g0 <- igraph::simplify(g, edge.attr.comb = "sum")
g0

## IGRAPH 3c88a59 DN-- 475 13289 -- 
## + attr: name (v/c)
## + edges from 3c88a59 (vertex names):
##  [1] 0 ->4   0 ->12  0 ->18  0 ->25  0 ->30  0 ->46  0 ->55  0 ->58  0 ->59 
## [10] 0 ->74  0 ->76  0 ->77  0 ->85  0 ->86  0 ->87  0 ->154 0 ->168 0 ->341
## [19] 0 ->374 0 ->401 4 ->0   4 ->12  4 ->25  4 ->30  4 ->46  4 ->55  4 ->58 
## [28] 4 ->59  4 ->154 4 ->168 4 ->374 4 ->401 4 ->17  4 ->89  4 ->24  4 ->64 
## [37] 4 ->3   4 ->14  4 ->27  4 ->79  4 ->84  4 ->88  4 ->149 4 ->179 4 ->197
## [46] 4 ->213 4 ->224 4 ->243 4 ->250 4 ->268 4 ->286 4 ->293 4 ->315 4 ->447
## [55] 4 ->460 12->30  12->46  12->55  12->59  12->74  12->11  12->17  12->89 
## [64] 12->64  12->91  12->162 12->32  12->126 12->327 12->84  12->13  12->57 
## + ... omitted several edges

vcount(g0)

## [1] 475

ecount(g0)

## [1] 13289

is_directed(g0)

## [1] TRUE

Metrike kohezije i fragmentacije (density, connectedness, komponente, putovi)

# Gustoća (usmjereni graf)
dens <- edge_density(g0, loops = FALSE)

# Recipročnost (korisno za Twitter interakcije: koliko je uzajamnih veza)
recip <- reciprocity(g0, ignore.loops = TRUE)

# Connectedness (sna paket očekuje matricu susjedstva)
A <- as.matrix(as_adjacency_matrix(g0, sparse = FALSE))
conn <- connectedness(A)

# Komponente
comp_weak  <- igraph::components(g0, mode = "weak")
comp_strong <- igraph::components(g0, mode = "strong")

c(
  density = dens,
  reciprocity = recip,
  connectedness = conn,
  n_comp_weak = comp_weak$no,
  n_comp_strong = comp_strong$no,
  giant_weak = max(comp_weak$csize),
  giant_strong = max(comp_strong$csize)
)

##       density   reciprocity connectedness   n_comp_weak n_comp_strong 
##    0.05902287    0.46158477    1.00000000    1.00000000    7.00000000 
##    giant_weak  giant_strong 
##  475.00000000  469.00000000

# Da postoji fragmentacije, izdvojili bismo divovsku komponentu za mjere putova (ako nije sve u jednoj)

# Prosječna duljina puta i promjer: u usmjerenim grafovima često radimo na slaboj projekciji
mean_dist <- mean_distance(g0, directed = FALSE)
diam <- diameter(g0, directed = FALSE)
rad  <- radius(g0, mode = "all")  # za neusmjeren graf

c(mean_distance = mean_dist, diameter = diam, radius = rad)

## mean_distance      diameter        radius 
##      2.063886      4.000000      2.000000

# Tranzitivnost / globalni koef. klasterizacije
trans <- transitivity(g0, type = "global")
trans

## [1] 0.2931573

Mreža se sastoji od 475 čvorova i 13 289 usmjerenih bridova, uz gustoću od približno 0,059. Budući da je maksimalan broj mogućih usmjerenih veza u mreži veličine \(n\) jednak \(n(n-1)\), dobivena gustoća upućuje na relativno rijetku mrežu, što je tipično za društvene mreže većeg opsega. Unatoč tome, mreža je u potpunosti povezana (jedna slaba i sedam jakih komponenti), što znači da između svakog para aktera postoji barem jedan usmjereni put. To implicira visoku globalnu integriranost komunikacijskog sustava.

Recipročnost iznosi približno 0,46, što znači da je gotovo polovica veza uzajamna. U kontekstu političke komunikacije to sugerira znatan stupanj međusobnog reagiranja i interakcijske dinamike, a ne isključivo jednostrano emitiranje poruka. Takva razina reciprociteta upućuje na dijaloški karakter dijela komunikacije, ali i na moguće frakcijske ili stranačke obrasce uzajamnog pojačavanja poruka.

Prosječna duljina najkraćeg puta iznosi približno 2,06, dok je promjer mreže 4. Drugim riječima, bilo koja dva člana Kongresa udaljena su u prosjeku svega dvije posredničke veze. U kombinaciji s globalnim koeficijentom klasterizacije od oko 0,29, možemo zaključiti da mreža pokazuje obilježja svojstva „malog svijeta“: visoku lokalnu povezanost i kratke globalne udaljenosti. Takva struktura pogoduje brzom širenju informacija, ali i potencijalno ubrzanom širenju polariziranih ili koordiniranih komunikacijskih obrazaca.

# Napomena: max_cliques ignorira smjer, pa pružamo takav graf (u suprotnom će crashati)
max_cl <- max_cliques(as.undirected(g0))
n_max_cl <- length(max_cl)
sizes_cl <- lengths(max_cl)

c(
  n_maximal_cliques = n_max_cl,
  clique_size_min = min(sizes_cl),
  clique_size_med = median(sizes_cl),
  clique_size_max = max(sizes_cl)
)

## n_maximal_cliques   clique_size_min   clique_size_med   clique_size_max 
##             21979                 2                 7                13

# k-core / coreness
core <- coreness(g0)
V(g0)$core <- core

summary(core)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   30.00   34.00   30.87   35.00   35.00

# Najdublja jezgra (k_max-core)
k_max <- max(core, na.rm = TRUE)
core_nodes <- V(g0)[core == k_max]
c(k_max = k_max, n_in_kmax_core = length(core_nodes))

##          k_max n_in_kmax_core 
##             35            175

Broj maksimalnih klika (21 979) te maksimalna veličina klike od 13 čvorova ukazuju na prisutnost brojnih lokalnih, gusto povezanih podskupina. Medijan veličine klike (7) sugerira da su te podskupine umjerene veličine, što je u skladu s postojanjem političkih blokova ili frakcija.

Analiza k-jezgre pokazuje da maksimalna vrijednost coreness iznosi 35, a čak 175 čvorova pripada najdubljoj jezgri. Budući da je minimalna vrijednost coreness 2, a medijan 34, mreža je izrazito strukturirana oko snažne središnje jezgre. To implicira da velik broj aktera sudjeluje u gusto isprepletenoj komunikacijskoj strukturi, dok je periferija relativno manja i slabije povezana.

# Jezgra/periferija: prag kao 75. percentil coreness - heuristički prag (a ne formalni Borgatti–Everett model)
thr_core <- as.numeric(quantile(core, 0.75, na.rm = TRUE))
V(g0)$cp <- ifelse(V(g0)$core >= thr_core, "jezgra", "periferija")

table(V(g0)$cp)

## 
##     jezgra periferija 
##        175        300

# Gustoće unutar jezgre i periferije
g_core <- induced_subgraph(g0, V(g0)[cp == "jezgra"])
g_peri <- induced_subgraph(g0, V(g0)[cp == "periferija"])

dens_JJ <- edge_density(g_core, loops = FALSE)
dens_PP <- edge_density(g_peri, loops = FALSE)

# Gustoća između skupina (A->B / |A||B| u binarnoj matrici)
AU <- as.matrix(as_adjacency_matrix(g0, sparse = FALSE))
idxJ <- which(V(g0)$cp == "jezgra")
idxP <- which(V(g0)$cp == "periferija")

dens_JP <- sum(AU[idxJ, idxP] > 0) / (length(idxJ) * length(idxP))
dens_PJ <- sum(AU[idxP, idxJ] > 0) / (length(idxP) * length(idxJ))

c(dens_JJ = dens_JJ, dens_PP = dens_PP, dens_JP = dens_JP, dens_PJ = dens_PJ)

##    dens_JJ    dens_PP    dens_JP    dens_PJ 
## 0.16052545 0.03517280 0.03920000 0.06072381

# Udio bridova po tipu (JJ, JP, PJ, PP) – za neusmjeren graf će biti simetrično, ali korisno didaktički
ee <- ends(g0, E(g0))
from_cp <- V(g0)[ee[, 1]]$cp
to_cp   <- V(g0)[ee[, 2]]$cp

prop_cp <- prop.table(table(paste(from_cp, to_cp, sep = "-")))
prop_cp

## 
##         jezgra-jezgra     jezgra-periferija     periferija-jezgra 
##             0.3678230             0.1548649             0.2398977 
## periferija-periferija 
##             0.2374144

Podjela prema 75. percentilu coreness-a daje 175 čvorova u jezgri i 300 u periferiji. Gustoća unutar jezgre (\(≈0,161\)) višestruko je veća od gustoće unutar periferije (\(≈0,035\)), što potvrđuje klasičan obrazac jezgra–periferija. Nadalje, udio bridova jezgra–jezgra čini oko 37% svih veza, dok su veze periferija–periferija manje zastupljene.

Ova struktura sugerira postojanje relativno kompaktne, komunikacijski intenzivne elite unutar Kongresa, dok periferija ima slabije međusobne interakcije i češće komunicira prema jezgri nego unutar vlastitog segmenta.

V(g0)$eigen <- igraph::eigen_centrality(g0)$vector

qs <- quantile(core, probs = c(0, 0.25, 0.5, 0.75, 1), na.rm = TRUE) # kvartili coreness-a
qs

##   0%  25%  50%  75% 100% 
##    2   30   34   35   35

V(g0)$core_q <- cut(
  core,
  breaks = c(-Inf, qs[2]-0.5, qs[3]-0.5, qs[4]-0.5, Inf),
  labels = c("Q1", "Q2", "Q3", "Q4"),
  include.lowest = TRUE
)

cols <- c(
  Q1 = "#d8b365",
  Q2 = "#f6e8c3",
  Q3 = "#c7eae5",
  Q4 = "#5ab4ac"
)                    # dodajemo boje; https://colorbrewer2.org/#type=diverging&scheme=BrBG&n=7

V(g0)$core_col <- cols[V(g0)$core_q]

set.seed(1)
lay <- layout_with_fr(g0)

legend_labels <- c(
  paste0("coreness < ", round(qs[1], 2)),
  paste0(round(qs[1], 2), " ≤ coreness < ", round(qs[2], 2)),
  paste0(round(qs[2], 2), " ≤ coreness < ", round(qs[3], 2)),
  paste0("coreness ≥ ", round(qs[3], 2))
)

plot(
  g0,
  layout = lay,
  vertex.size = 15*V(g0)$eigen,
  vertex.color = V(g0)$core_col,
  vertex.shape = "sphere",
  vertex.label = NA,
  edge.arrow.size = 0.5,
  edge.color = "#e0e0e0",
  main = "Model jezgre - periferije \n veličina čvora: eigen centralnost"
)

legend(
  "topright",
  legend = legend_labels,
  col = cols,
  pch = 19,
  pt.cex = 1.5,
  bty = "n"
)

Vidimo vrlo jasan obrazac jezgra–periferija, i to u dvije razine odjednom: (1) strukturna kohezija (boja = coreness) i (2) utjecaj/centralnost (veličina = eigen centralnost).

Jezgra (tamno tirkizna; najviši coreness) formira kompaktne, gusto povezane nakupine u središnjem dijelu grafa. To je očekivano: visoki coreness znači da su ti čvorovi dio dubljih k-jezgri, tj. imaju mnogo veza prema drugim „dobro uvezanim“ čvorovima, a ne samo prema periferiji.

Dva izražena „grumena“ jezgre sugeriraju da se jezgra ne ponaša kao jedna homogena elita, nego kao najmanje dva gusto povezana bloka. Iako je ovo graf jezgra–periferija, raspored čvorova (FR layout) često „izvuče“ latentne zajednice kao odvojene nakupine.

Najveći čvorovi (najviša eigen centralnost) nalaze se unutar jezgre i/ili na rubu jezgre prema ostatku mreže. To je tipično: eigen centralnost nagrađuje veze prema drugim centralnim čvorovima, pa se najveći čvorovi često pojavljuju u najdubljoj jezgri ili kao „sidra“ blokova.

Periferija je disperzirana oko jezgre, s manjim čvorovima i slabijim međusobnim povezivanjem. To vizualno podržava izračune gdje je gustoća periferija–periferija osjetno manja od gustoće jezgra–jezgra.

# Zajednice: radimo na g0 (neusmjeren), s težinama ako postoje

set.seed(1)
comm_louv <- cluster_louvain(as_undirected(g0))
comm_walk <- cluster_walktrap(g0)
comm_eb   <- cluster_edge_betweenness(g0)  # sporije na većim grafovima
comm_fg   <- cluster_fast_greedy(as_undirected(g0))

Q_louv <- modularity(comm_louv)
Q_walk <- modularity(comm_walk)
Q_eb   <- modularity(comm_eb)
Q_fg   <- modularity(comm_fg)

sizes_louv <- sizes(comm_louv)
sizes_walk <- sizes(comm_walk)
sizes_eb   <- sizes(comm_eb)
sizes_fg   <- sizes(comm_fg)

list(
  louvain = c(n_comm = length(sizes_louv), Q = Q_louv, min = min(sizes_louv), med = median(sizes_louv), max = max(sizes_louv)),
  walktrap = c(n_comm = length(sizes_walk), Q = Q_walk, min = min(sizes_walk), med = median(sizes_walk), max = max(sizes_walk)),
  edge_betweenness = c(n_comm = length(sizes_eb), Q = Q_eb, min = min(sizes_eb), med = median(sizes_eb), max = max(sizes_eb)),
  fast_greedy = c(n_comm = length(sizes_fg), Q = Q_fg, min = min(sizes_fg), med = median(sizes_fg), max = max(sizes_fg))
)

## $louvain
##      n_comm           Q         min         med         max 
##   4.0000000   0.4132296   2.0000000 136.5000000 200.0000000 
## 
## $walktrap
##      n_comm           Q         min         med         max 
##   3.0000000   0.4142997  77.0000000 184.0000000 214.0000000 
## 
## $edge_betweenness
##       n_comm            Q          min          med          max 
## 209.00000000   0.04741116   1.00000000   1.00000000 267.00000000 
## 
## $fast_greedy
##      n_comm           Q         min         med         max 
##   3.0000000   0.3752698  45.0000000 182.0000000 248.0000000

# Spremamo oznake zajednica (za kasnije: polarizacija, mostovi, brokeri)
V(g0)$comm_louv <- membership(comm_louv)
V(g0)$comm_walk <- membership(comm_walk)
V(g0)$comm_fg   <- membership(comm_fg)

Metode Louvain i Walktrap identificiraju 3–4 zajednice uz modularnost oko 0,41, što predstavlja umjerenu do izraženu modularnu strukturu. To znači da mreža nije homogena, već je segmentirana u nekoliko jasno diferenciranih blokova. S obzirom na politički kontekst, takva modularnost vjerojatno reflektira stranačku polarizaciju ili ideološke klastere.

Udio bridova koji povezuju različite zajednice iznosi oko 19,8%, što znači da je oko 80% veza unutar zajednica. To potvrđuje prisutnost strukturne segmentacije, ali ne i potpune izolacije blokova.

set.seed(1)
lay <- layout_with_fr(g0)

plot(
  g0,
  layout = lay,
  vertex.size = 10*V(g0)$eigen,
  vertex.label = NA,
  edge.arrow.size = 0.5,
  vertex.color = V(g0)$comm_walk,
  main = "Zajednice (Walktrap) – Twitter Congress \n veličina čvora:eigen centralnost"
)

Vizualizacija Walktrap zajednica vrlo jasno potvrđuje rezultate modularnosti (\(Q ≈ 0,41\)) i ukazuje na izraženu, ali ne potpunu segmentaciju mreže. Promatrajući raspored čvorova u Fruchterman–Reingold rasporedu, vidimo tri dominantna bloka (plavi, narančasti i zeleni), koji su prostorno razdvojeni, ali i dalje povezani značajnim brojem međusobnih veza. Takva konfiguracija sugerira postojanje snažnih unutarnjih komunikacijskih klastera uz istodobno očuvanu globalnu povezanost sustava.

Najveći čvorovi (prema eigen centralnosti) koncentrirani su unutar narančaste i plave zajednice, što znači da se utjecaj i vidljivost primarno distribuiraju unutar blokova, a ne ravnomjerno kroz cijelu mrežu. Drugim riječima, centralni akteri ovih dviju zajednica imaju snažan položaj unutar vlastitog segmenta, a pritom izgleda kao da je njihova uloga u međuzajedničkom povezivanju ograničenija. To bi bio tipičan obrazac politički polariziranih mreža, gdje se komunikacija intenzivira unutar ideološki homogenih skupina.

Unatoč toj segmentaciji, mreža nije fragmentirana. Prethodno utvrđeni udio mostova između zajednica (\(≈ 20%\)) pokazuje da komunikacija između blokova postoji i nije zanemariva. Emergentno svojstvo takve strukture jest istodobna polarizacija i integracija: zajednice su jasno diferencirane, ali sustav kao cjelina ostaje koherentan i kratkih udaljenosti. To omogućuje brzo širenje informacija unutar blokova, ali i relativno učinkovito premošćivanje između njih putem ograničenog broja središnjih aktera.

U kombinaciji s analizom jezgre–periferije možemo zaključiti da se modularnost i jezgrena struktura preklapaju: najutjecajniji akteri nalaze se u najdubljoj jezgri i istodobno čine središta pojedinih zajednica. Time se formira višeslojna struktura u kojoj je mreža:

globalno integrirana,
lokalno modularna,
jezgreno koncentrirana,

ali bez potpune izolacije blokova.

Takva konfiguracija tipična je za institucionalne političke mreže u kojima formalna pripadnost (npr. stranačka) generira klastere, dok institucionalni okvir (Kongres kao zajednički prostor) održava cjelokupnu povezanost sustava.

# Cross-community bridovi prema Walktrap particiji
ee <- ends(g0, E(g0))
i <- match(ee[, 1], V(g0)$name)
j <- match(ee[, 2], V(g0)$name)

E(g0)$bridge_comm <- V(g0)$comm_walk[i] != V(g0)$comm_walk[j]

table(E(g0)$bridge_comm)

## 
## FALSE  TRUE 
## 10662  2627

mean(E(g0)$bridge_comm)  # udio bridova koji spajaju različite zajednice

## [1] 0.1976823

# Brza vizualizacija: mostovi deblji
E(g0)$width <- ifelse(E(g0)$bridge_comm, 2.2, 0.8)
E(g0)$color <- ifelse(E(g0)$bridge_comm, "black", "grey80")

plot(
  g0,
  layout = lay,
  vertex.size = 10*V(g0)$eigen,
  vertex.label = NA,
  vertex.color = V(g0)$comm_walk,
  edge.width = E(g0)$width,
  edge.color = E(g0)$color,
  edge.arrow.size = 0.5,
  main = "Mostovi između walktrap - zajednica (crno)"
)

Vizualizacija mostova između Walktrap zajednica (crno označeni bridovi) omogućuje nam da preciznije razumijemo dinamiku komunikacije između blokova. Iako je modularnost umjerena (\(Q ≈ 0,41\)), mreža nije segmentirana u izolirane komponente. Naprotiv, crni bridovi jasno pokazuju da između zajednica postoji značajan broj interakcija, što je u skladu s prethodno izračunatim udjelom od približno 20% bridova koji povezuju različite zajednice.

Strukturno gledano, mostovi nisu ravnomjerno raspoređeni, nego se koncentriraju u središnjem dijelu grafa, odnosno u zoni preklapanja zajednica. To sugerira da komunikaciju među zajednicama ne nose periferni akteri, nego upravo oni koji su već visoko integrirani u jezgru mreže. Ovo želimo još provjeriti analizom constraint-a, tj. jesu li brokeri istodobno dio duboke k-jezgre i povezuju različite module.

U političkom kontekstu, ova struktura upućuje na sustav u kojem postoji polarizacija (jasno odvojeni klasteri), ali i institucionalna kohezija (mostovi koji sprječavaju fragmentaciju). Drugim riječima, mreža istodobno pokazuje obilježja modularnosti i integriranosti, pri čemu je međublokovska komunikacija strukturirana, a ne stihijska.

# Constraint se tipično interpretira na neusmjerenom grafu
constr <- constraint(g0)
V(g0)$constraint <- constr

summary(constr)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01388 0.03361 0.04468 0.05033 0.05673 0.50000

# Top brokeri: najmanji constraint
brokers_tbl <- tibble(
  name = V(g0)$name,
  degree = igraph::degree(g0),
  core = V(g0)$core,
  comm = V(g0)$comm_louv,
  constraint = V(g0)$constraint
) %>%
  arrange(constraint)

brokers_tbl %>% slice(1:15)

## # A tibble: 15 × 5
##    name  degree  core comm       constraint
##    <chr>  <dbl> <dbl> <membrshp>      <dbl>
##  1 367      261    35 2              0.0139
##  2 322      284    35 3              0.0188
##  3 254      187    35 2              0.0190
##  4 71       122    35 1              0.0198
##  5 111      148    35 2              0.0207
##  6 393      190    35 2              0.0212
##  7 92       138    35 2              0.0218
##  8 208      182    35 3              0.0225
##  9 335      147    35 3              0.0227
## 10 421       99    35 2              0.0229
## 11 461      137    35 2              0.0231
## 12 147      148    35 2              0.0233
## 13 17       123    34 1              0.0237
## 14 102       80    35 2              0.0238
## 15 192      148    35 3              0.0238

# Označimo top-10 brokera radi prikaza
topk <- 10
top_broker_names <- brokers_tbl$name[1:topk]
V(g0)$broker <- ifelse(V(g0)$name %in% top_broker_names, "broker", "ostalo")

Mjera constraint (medijan \(≈0,045\); minimum \(≈0,014\)) ukazuje na postojanje aktera s izrazito niskim strukturnim ograničenjem. Ti akteri djeluju kao brokeri između gusto povezanih skupina. Njihova pozicija omogućuje kontrolu ili posredovanje informacija između različitih političkih blokova. Zanimljivo je da svi identificirani brokeri pripadaju najdubljoj jezgri (coreness 34–35), što znači da mostovi između zajednica nisu periferni akteri, nego centralne figure mreže.

plot(
  g0,
  layout = lay,
  vertex.size = ifelse(V(g0)$broker == "broker", 9, 3),
  vertex.color = ifelse(V(g0)$broker == "broker", "darkred", "lightgrey"),
  vertex.label = ifelse(V(g0)$broker == "broker", V(g0)$name, NA),
  vertex.label.cex = 0.5,
  vertex.label.color = "black",
  edge.color = "grey85",
  edge.arrow.size=0.5,
  main = "Brokeri (najniži constraint) – strukturne rupe"
)

Vizualizacija brokera (najniži constraint) jasno potvrđuje nalaz da su strukturne rupe koncentrirane u središnjem dijelu mreže, a ne na njezinoj periferiji. Crveno označeni čvorovi nalaze se u zonama preklapanja zajednica i u blizini najgušće jezgre, što znači da brokeri nisu marginalni akteri, nego centralne figure, kako strukturno, tako i komunikacijski.

Mjera constraint kvantificira stupanj u kojem je čvor „zarobljen“ unutar guste, redundantne mreže veza. Niska vrijednost constraint-a implicira da susjedi promatranog čvora nisu snažno međusobno povezani, pa čvor zauzima poziciju mosta između relativno odvojenih skupina. U ovoj mreži minimalne vrijednosti constraint-a (\(≈ 0,014\)) ukazuju na postojanje izrazito otvorenih strukturalnih pozicija koje omogućuju pristup heterogenim informacijskim tokovima.

Strukturno gledano, brokeri se nalaze između već identificiranih Walktrap zajednica, što znači da posreduju između modularnih blokova. Emergentno svojstvo takve konfiguracije jest koncentracija međublokovske komunikacije u ograničenom broju aktera. To povećava njihovu potencijalnu kontrolu nad protokom informacija, ali i njihovu vidljivost i utjecaj.

Zanimljivo je da brokeri istodobno pripadaju najdubljoj k-jezgri (visoki coreness), što sugerira da u ovoj mreži ne postoji klasična podjela na „jezgru“ i „posrednike“ kao odvojene kategorije. Naprotiv, centralni akteri istodobno obavljaju funkciju integracije unutar vlastitih zajednica i premošćivanja između zajednica. Time se formira višeslojna struktura u kojoj jezgra nije samo gusto povezana, nego i funkcionalno ključna za očuvanje kohezije cijelog sustava.

U političkom kontekstu, takva konfiguracija upućuje na institucionalno stabilan sustav u kojem polarizacija postoji, ali je ublažena postojanjem aktera koji održavaju komunikacijske kanale između blokova. Emergentno, mreža pokazuje kombinaciju segmentacije i integracije: blokovi su jasno diferencirani, ali nisu izolirani, jer ih povezuje ograničen broj strateški pozicioniranih brokera.

# Pareto
degU <- igraph::degree(g0)

# Pareto udio za p=0.2
p <- 0.2
k <- ceiling(length(degU) * p)
pareto_share <- sum(sort(degU, decreasing = TRUE)[1:k]) / sum(degU)

c(p = p, k = k, pareto_share = pareto_share)

##            p            k pareto_share 
##     0.200000    95.000000     0.392919

# Lorenz krivulja (podaci)
deg_sorted <- sort(degU)
cum_deg <- cumsum(deg_sorted) / sum(deg_sorted)
cum_nodes <- (1:length(deg_sorted)) / length(deg_sorted)

lorenz_df <- tibble(cum_nodes = cum_nodes, cum_deg = cum_deg)

# Gini koeficijent (diskretna formula)
n <- length(deg_sorted)
gini <- (2 * sum(deg_sorted * seq_len(n)) / (n * sum(deg_sorted))) - (n + 1) / n
gini

## [1] 0.3163394

plot(
  lorenz_df$cum_nodes, lorenz_df$cum_deg,
  type = "l", lwd = 2,
  xlab = "Kumulativni udio čvorova",
  ylab = "Kumulativni udio stupnja",
  main = "Lorenzova krivulja (stupanj)"
)
abline(0, 1, lty = 2)

Pareto analiza pokazuje da 20% čvorova generira približno 39% ukupnog stupnja, a Gini koeficijent od 0,316 upućuje na umjerenu koncentraciju povezanosti. To znači da, iako postoje istaknuti akteri, mreža nije ekstremno centralizirana oko malog broja „super-hubova“. Distribucija je asimetrična, ali ne radikalno nejednaka.

# Asortativnost po stupnju
ass_deg <- assortativity_degree(g0)
ass_deg

## [1] -0.09621433

Asortativnost po stupnju iznosi približno −0,096, što znači blagu disasortativnost. Drugim riječima, akteri s visokim stupnjem imaju tendenciju povezivati se s akterima nižeg stupnja. To je tipično za mreže u kojima centralne figure komuniciraju s velikim brojem manje aktivnih sudionika, što dodatno osnažuje model jezgra–periferija.

summary_list <- list(
  basic = c(n = vcount(g0), m = ecount(g0), density = dens, reciprocity = recip),
  connectedness = conn,
  components = c(
    n_comp_weak = comp_weak$no,
    giant_weak = max(comp_weak$csize),
    n_comp_strong = comp_strong$no,
    giant_strong = max(comp_strong$csize)
  ),
  paths = c(mean_distance = mean_dist, diameter = diam, radius = rad),
  clustering = c(transitivity_global = trans),
  cohesion = c(
    n_maximal_cliques = n_max_cl,
    clique_size_min = min(sizes_cl),
    clique_size_med = median(sizes_cl),
    clique_size_max = max(sizes_cl),
    k_max_core = k_max
  ),
  core_periphery = c(dens_JJ = dens_JJ, dens_PP = dens_PP, dens_JP = dens_JP, dens_PJ = dens_PJ),
  communities = rbind(
    louvain = c(n_comm = length(sizes_louv), Q = Q_louv),
    walktrap = c(n_comm = length(sizes_walk), Q = Q_walk),
    edge_betweenness = c(n_comm = length(sizes_eb), Q = Q_eb),
    fast_greedy = c(n_comm = length(sizes_fg), Q = Q_fg)
  ),
  bridges_between_communities = c(
    share_bridge_edges = mean(E(g0)$bridge_comm)
  ),
  structural_holes = c(
    broker_topk = topk,
    constraint_min = min(V(g0)$constraint, na.rm = TRUE),
    constraint_med = median(V(g0)$constraint, na.rm = TRUE)
  ),
  inequality = c(pareto_share_20 = pareto_share, gini_degree = gini),
  assortativity = c(assort_degree = ass_deg)
)

summary_list

## $basic
##            n            m      density  reciprocity 
## 4.750000e+02 1.328900e+04 5.902287e-02 4.615848e-01 
## 
## $connectedness
## [1] 1
## 
## $components
##   n_comp_weak    giant_weak n_comp_strong  giant_strong 
##             1           475             7           469 
## 
## $paths
## mean_distance      diameter        radius 
##      2.063886      4.000000      2.000000 
## 
## $clustering
## transitivity_global 
##           0.2931573 
## 
## $cohesion
## n_maximal_cliques   clique_size_min   clique_size_med   clique_size_max 
##             21979                 2                 7                13 
##        k_max_core 
##                35 
## 
## $core_periphery
##    dens_JJ    dens_PP    dens_JP    dens_PJ 
## 0.16052545 0.03517280 0.03920000 0.06072381 
## 
## $communities
##                  n_comm          Q
## louvain               4 0.41322962
## walktrap              3 0.41429967
## edge_betweenness    209 0.04741116
## fast_greedy           3 0.37526980
## 
## $bridges_between_communities
## share_bridge_edges 
##          0.1976823 
## 
## $structural_holes
##    broker_topk constraint_min constraint_med 
##    10.00000000     0.01387808     0.04467882 
## 
## $inequality
## pareto_share_20     gini_degree 
##       0.3929190       0.3163394 
## 
## $assortativity
## assort_degree 
##   -0.09621433

Iz svih pokazatelja možemo zaključiti da mreža pokazuje:

snažnu globalnu integriranost (jedna komponenta),
svojstva malog svijeta (kratke udaljenosti + klasterizacija),
izražen model jezgra–periferija,
umjerenu modularnu polarizaciju,
postojanje centralnih brokera koji premošćuju zajednice,
umjerenu, ali ne ekstremnu koncentraciju utjecaja.

Strukturno gledano, riječ je o kohezivnoj, ali segmentiranoj mreži u kojoj centralna jezgra dominira komunikacijskim tokovima, dok istovremeno postoji jasna podjela na nekoliko velikih zajednica. Emergentno svojstvo takve konfiguracije jest istodobna visoka integriranost sustava i postojanje modularnih blokova, što omogućuje brzo širenje informacija unutar blokova, ali i relativno učinkovito premošćivanje između njih putem ograničenog broja centralnih aktera.

Primjer: AlphaCore (jedan token)

Ethereum blockchain pohranjuje transakcije koje su izvršene između otprilike 200 milijuna adresa računa. Ethereum sadrži dvije vrste adresa računa: račune u vanjskom vlasništvu i pametne račune s ugovornim kodom. Računi u vanjskom vlasništvu (EOA) kontrolirani su privatnim ključevima kojima upravljaju stvarni subjekti. Neki subjekti su obični korisnici, dok su drugi organizacije poput blockchain burzi. Postoje dvije vrste burzi; centralizirane burze (CEX), poznate i kao skrbničke burze, upravljaju sredstvima korisnika u njihovo ime putem više, centralno kontroliranih EOA-a. Decentralizirane burze (DEX), nasuprot tome, obično ne zahtijevaju stavljanje sredstava u skrbništvo jednog subjekta i obično se implementiraju kao računi pametnih ugovora. Kako burze igraju glavnu ulogu u mrežama blockchain transakcija, a DEX je stekao značajnu popularnost pojavom decentraliziranih financija, razumijevanje ove vrste adresa i povezanih transakcija postalo je važan zadatak.

Ovaj skup podataka sastoji se od ponderiranih, usmjerenih grafova s djelomično dostupnim oznakama čvorova. Točnije, sastoji se od mreža tokena (imovine) koje su izdvojene iz Ethereum blockchaina između 16. listopada 2018. i 4. svibnja 2020. i među najvećima su u tom vremenskom okviru. Obuhvaća ERC20 imovinu TUSD, BAT, MANA, MGC, BNT, HEX, AMB, LINK, DAI, HT, AZ, LAMB, SAI, EGT, MXM, USDP, MKR, USDC, NPXS, STORJ, BNB, EBK, WETH, KICK, OMG, KNC, ZRX i ENJ koja odgovara polju adrese tokena. Podaci nisu anonimizirani i stoga se mogu pretraživati pomoću online istraživača blokova i povezivati s vanjskim informacijama. Ove se mreže mogu koristiti pojedinačno ili zajedno, jer se neki čvorovi mogu pojaviti u više mreža. Oznake čvorova dobivene su u svibnju 2020. od Etherscan.io, istaknutog istraživača blokova Ethereuma, koji prikuplja i održava oznake adresa. Ukupno je javno navedeno 296 adresa sa 149 centraliziranih i decentraliziranih burzi, koje se vjerojatno često koriste. Skup podataka također pruža oznake adresa (oznaka, adresa, naziv, imovina) za adrese u Alphacoreu dubine 0.1 mreže stablecoina (Victor i sur., 2021).

library(tidyverse)
library(igraph)

zip_url  <- "https://snap.stanford.edu/data/ethereum-exchanges.zip"
zip_path <- file.path("data", "ethereum-exchanges.zip")
download.file(zip_url, destfile = zip_path, mode = "wb", quiet = TRUE)

unz_dir <- file.path("data", "unzipped2")
dir.create(unz_dir, showWarnings = FALSE)

unzip(zip_path, exdir = unz_dir)
list.files(unz_dir)

’## [1] “alphacore_labels_stablecoin.csv” “exchangeLabels.csv” “token_transfers_full.csv”

alph <- read_csv("alphacore_labels_stablecoin.csv",
                 show_col_types = FALSE) %>%
  mutate(address = str_to_lower(address))

head(alph)

## # A tibble: 6 × 4
##   label   address                                    name       asset    
##   <chr>   <chr>                                      <chr>      <chr>    
## 1 uniswap 0x97e7d56a0408570ba1a7852de36350f7713906ec Uniswap V3 DAI-FRAX 
## 2 uniswap 0xfda299cbcce3c9e71633dcebf9e10e4aba2b1e4f Uniswap V2 FACE-USDT
## 3 uniswap 0xd6a309f49cf79542cea91df7b334eb4bd29aa0d7 Uniswap V3 USDC-STG 
## 4 uniswap 0x2b1a1b9d6a50d225c84d1ae3624d3396e0b245e8 Uniswap V3 DAI-BEAN 
## 5 uniswap 0x11181bd3baf5ce2a478e98361985d42625de35d1 Uniswap V2 ASTO-USDC
## 6 uniswap 0x16975d5bec8c0a797922a77e3be988ce805e46b2 Uniswap V2 CLUK-USDC

# Ovo je ogroman dokument od 8.25 GB i ekstrakciju ne želimo raditi lokalno
library(DBI)
library(duckdb)

token_file <- "token_transfers_full.csv"

con <- dbConnect(duckdb::duckdb(), dbdir = "eth.duckdb")

qry_count <- sprintf("
  SELECT
    lower(token_address) AS token_address,
    COUNT(*) AS n_transactions
  FROM read_csv_auto('%s')
  GROUP BY token_address
  ORDER BY n_transactions ASC
", token_file)

token_counts <- dbGetQuery(con, qry_count)

dbDisconnect(con, shutdown = TRUE)

head(token_counts)

##                                token_address n_transactions
## 1 0x6f259637dcd74c767781e37bc6133cd6a68aa161         344418
## 2 0x0f5d2fb29fb7d3cfee444a200298f468908cc942         346920
## 3 0x77fe30b2cf39245267c0a5084b66a560f1cf9e1f         355295
## 4 0x4dc3643dbc642b72c158e7f3d2ff232df61cb6ce         401293
## 5 0xbddab785b306bcd9fb056da189615cc8ece1d823         403344
## 6 0x8971f9fd7196e5cee2c1032b50f656855af7dd26         438828

# Provjera za koji je token bilo najmanje trgovanja (najmanja mreža)
token_min <- token_counts$token_address[1]
n_min     <- token_counts$n_transactions[1]

token_min

## [1] "0x6f259637dcd74c767781e37bc6133cd6a68aa161"

n_min

## [1] 344418

con <- dbConnect(duckdb::duckdb(), dbdir = "eth.duckdb") 

# (A) Povučemo transakcije samo za taj token (po potrebi limit za probu) 
qry_edges <- sprintf(" 
                     SELECT lower(from_address) AS from_address, 
                     lower(to_address) AS to_address, 
                     CAST(value AS DOUBLE) AS value FROM read_csv_auto('%s') 
                     WHERE lower(token_address) = lower('%s') ", 
                     token_file, 
                     token_min) 


edges_raw <- dbGetQuery(con, qry_edges) 
dbDisconnect(con, shutdown = TRUE)

nrow(edges_raw)

## [1] 344418

nrow(edges_raw)

## [1] 344418

summary(edges_raw$value)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 0.000e+00 1.990e+19 3.990e+20 6.439e+21 2.343e+21 2.180e+26

# Odabiremo samo visoko vrijedne transakcije (top 1%)
T <- quantile(edges_raw$value, 0.99, na.rm = TRUE)
T

##   99% 
## 3e+22

con <- dbConnect(duckdb::duckdb(), dbdir = "eth.duckdb")

qry_edges_large <- sprintf("
  SELECT
    lower(from_address) AS from_address,
    lower(to_address)   AS to_address,
    CAST(value AS DOUBLE) AS value
  FROM read_csv_auto('%s')
  WHERE lower(token_address) = lower('%s')
    AND CAST(value AS DOUBLE) >= %s
", token_file, token_min, format(T, scientific = FALSE, trim = TRUE))

edges_large <- dbGetQuery(con, qry_edges_large)


dbDisconnect(con, shutdown = TRUE)

nrow(edges_large)

## [1] 3519

nrow(edges_large)

## [1] 3519

U nastavku interpretiramo dobivene pokazatelje za AlphaCore mrežu jednog tokena, pri čemu naglašavamo da smo mrežu konstruirali samo od top 1% transakcija po vrijednosti. To znači da mreža ne predstavlja “tipičan” promet tokena, nego infrastrukturu velikih prijenosa (whale transferi, agregacije, premještanja likvidnosti, “treasury” kretanja i sl.). Ta odluka metodološki smanjuje šum, ali istodobno uvodi selekciju: zaključci se odnose na visokovrijedni sloj transakcijskog sustava.

geth <- graph_from_data_frame(edges_large)
geth <- igraph::simplify(geth, edge.attr.comb = "sum")
vcount(geth)

## [1] 1042

ecount(geth)

## [1] 2043

summary(E(geth)$value)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 3.000e+22 4.261e+22 6.589e+22 7.972e+23 1.776e+23 2.180e+26

Graf geth nakon filtriranja sadrži 1042 čvora i 2043 brida, uz gustoću \(≈ 0,00188\). To je ekstremno rijetka mreža: u prostoru svih mogućih usmjerenih veza realiziran je vrlo mali udio. Strukturno, to je tipičan potpis blockchain transakcijskih mreža: većina adresa sudjeluje u malom broju relacija, a interakcije su “point-to-point” i epizodične.

Kod Ethereum tokena, value se ne pohranjuje u “ljudskim” jedinicama, nego u najmanjoj jedinici tokena.

Za ERC20 tokene vrijedi:

\[ \text{stvarna vrijednost} = \frac{\text{value}}{10^{decimals}} \]

Najčešće je decimals = 18.

Kopiramo token “0x6f259637dcd74c767781e37bc6133cd6a68aa161” i pretražimo u bazi: https://etherscan.io/address/0x6f259637dcd74c767781e37bc6133cd6a68aa161

kliknemo na contract i naći ćemo: decimals = 18.

To znači da je minimum koji vidimo zapravo:

\[ \text{real_amount} = \frac{3 \times 10^{22}}{10^{18}} = 3 \times 10^4 = 30000 \]

E(geth)$weight <- E(geth)$value/10^18

summary(E(geth)$weight)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     30000     42610     65889    797157    177561 217997500

Sad je težina interpretabilna. Stablecoini su dizajnirani tako da vrijede približno: \(1 token≈1 USD\). Za ovaj token, koji nije stablecoin, konverzija \(value / 10^{decimals}\) daje broj tokena. Za tržišnu vrijednost, trebalo bi provjeriti tržišnu cijenu u vrijeme transakcije (a vrijeme transakcije nam nije dostupno). Tako da će weight biti broj tokena.

Distribucija težina (nakon korekcije za decimals) pokazuje izrazitu asimetriju: medijan je oko 65900 tokena, dok je maksimum oko 218 milijuna tokena. Kvantili potvrđuju “debeli rep” - treći kvartil je više nego dvostruko veći od medijana, a višestruko veći od razlike između medijana i prvog kvartila. Još naglašeniji odnos uočavamo ako usporedimo razliku između trećeg kvartila i maksimuma s razlikom između trećeg i prvog kvartila. Prosjek je odvučen k većim vrijednostima, što dodatno potvrđuje asimetriju. Emergentno svojstvo takve raspodjele je koncentracija volumena: mali broj transfera nosi nesrazmjerno velik dio ukupnog prometa. To u praksi znači da su “najveći” bridovi strukturno važni za opis ekonomskog toka, čak i ako nisu brojčano dominantni.

Osnovni profil grafa (veličina, gustoća, izolirani čvorovi)

n <- vcount(geth)
m <- ecount(geth)

dens <- edge_density(geth, loops = FALSE)
iso  <- sum(igraph::degree(geth, mode="all") == 0)

cat("V:", n, " E:", m, "\n")

## V: 1042  E: 2043

cat("Density:", dens, "\n")

## Density: 0.001883432

cat("Isolated nodes:", iso, "\n")

## Isolated nodes: 0

Nema izoliranih čvorova (0), što je očekivano jer su čvorovi ušli u graf upravo preko filtriranih bridova.

Ponderi i “težina” prometa (strength)

Blockchain mreže su često ekstremno “heavy-tailed”: mali broj bridova nosi većinu volumena.

w <- E(geth)$weight
summary(w)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##     30000     42610     65889    797157    177561 217997500

quantile(w, probs = c(.5, .9, .95, .99), na.rm=TRUE)

##        50%        90%        95%        99% 
##   65888.97  477766.60  862058.59 5016873.67

# ukupni volumen po čvoru (in/out)
s_in  <- strength(geth, mode="in",  weights = w)
s_out <- strength(geth, mode="out", weights = w)

summary(s_in)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##         0     36380     64236   1562948    191440 217997500

summary(s_out)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
##         0     39990     64155   1562948    184466 229100200

Usmjerenost: reciprocitet i asimetrija

rec <- reciprocity(geth)   # udio uzajamnih bridova
rec

## [1] 0.02741067

# Omjer "jednosmjernih" vs "dvosmjernih" relacija
mutual_pairs <- sum(which_mutual(geth))
mutual_pairs

## [1] 56

Reciprocitet je \(≈ 0,027\), a broj mutual parova je mali. To upućuje na obrazac jednosmjernih tokova (transfer od izvora prema odredištima), a ne na uzajamnu razmjenu između istih parova adresa. Kod burzi i DeFi protokola često se vidi više uzajamnosti (trade, swapovi, povrati), no ovdje filtriranje na top 1% može naglasiti transfere koji su prirodno jednosmjerni (npr. povlačenja, “treasury” redistribucije, konsolidacije).

Komponente: weakly i strongly connected (WCC/SCC)

# Slabo povezane komponente 
wc <- igraph::components(geth, mode="weak")
wc$no

## [1] 7

sizes(wc) %>% head(10)

## Community sizes
##    1    2    3    4    5    6    7 
## 1028    2    3    3    2    2    2

# Jako povezane komponente
sc <- igraph::components(geth, mode="strong")
sc$no

## [1] 262

sizes(sc) %>% head(10)

## Community sizes
##  1  2  3  4  5  6  7  8  9 10 
##  1  1  1  1  1  1  1  1  1  1

# izdvoji najveću slabo povezanu komponentu (LCC) – često radimo analizu na njoj
giant_vids <- which(wc$membership == which.max(wc$csize))
geth$membership <- sc$membership
geth_g <- induced_subgraph(geth, vids = giant_vids)

vcount(geth_g)

## [1] 1028

ecount(geth_g)

## [1] 2035

Slabo povezane komponente (weak) daju 7 komponenti, pri čemu divovska komponenta ima 1028 čvorova (od 1042) – dakle sustav je globalno gotovo sav u jednom “ekosustavu” kad ignoriramo smjer. Međutim, jako povezane komponente (strong) su 262, uglavnom veličine 1, što je klasičan potpis transakcijske mreže: smjer uvodi mnoge situacije gdje “put natrag” ne postoji. Strukturno, mreža se ponaša kao mreža protoka s mnogo izvora i ponora, i relativno malo ciklusa; emergentno to znači da je reverzibilna razmjena rijetka u sloju velikih transfera.

set.seed(1)
lay <- layout_with_mds(geth_g) 
#dim = 3, weights = E(geth_g)$weight)*2

plot(
  geth_g,
  layout = lay,
  vertex.size = 4,
  vertex.label = NA,
  edge.arrow.size = 0.5,
  vertex.color = geth_g$membership,
  main = "Komponente"
)

set.seed(2)
lay <- layout_with_fr(geth_g)*3

plot(
  geth_g,
  layout = lay,
  vertex.size = 4,
  vertex.label = NA,
  edge.arrow.size = 0.5,
  main = "'Divovska komponenta'"
)

Distribucije stupnjeva i “hubovi”

deg_in  <- igraph::degree(geth_g, mode="in")
deg_out <- igraph::degree(geth_g, mode="out")
deg_all <- igraph::degree(geth_g, mode="all")

summary(deg_in)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    1.00    1.00    1.98    1.00  179.00

summary(deg_out)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00    1.00    1.00    1.98    1.00  119.00

# top čvorovi po indegree/outdegree
top_in  <- order(deg_in, decreasing=TRUE)[1:10]
top_out <- order(deg_out, decreasing=TRUE)[1:10]

data.frame(
  node = V(geth_g)$name[top_in],
  indegree = deg_in[top_in]
)

##                                                                                  node
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe 0x0d0707963952f2fba59dd06f2b425ace40b492fe
## 0x1c4b70a3968436b9a0a9cf5205c787eb81bb558c 0x1c4b70a3968436b9a0a9cf5205c787eb81bb558c
## 0x46705dfff24256421a05d056c29e81bdc09723b8 0x46705dfff24256421a05d056c29e81bdc09723b8
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b 0x5c985e89dde482efe97ea9f1950ad149eb73829b
## 0x6748f50f686bfbca6fe8ad62b22228b87f31ff2b 0x6748f50f686bfbca6fe8ad62b22228b87f31ff2b
## 0xe93381fb4c4f14bda253907b18fad305d799241a 0xe93381fb4c4f14bda253907b18fad305d799241a
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58
## 0xab5c66752a9e8167967685f1450532fb96d5d24f 0xab5c66752a9e8167967685f1450532fb96d5d24f
## 0xfdb16996831753d5331ff813c29a93c76834a0ad 0xfdb16996831753d5331ff813c29a93c76834a0ad
## 0x7cd932d8997f202830a02cae6588615ecef1d37c 0x7cd932d8997f202830a02cae6588615ecef1d37c
##                                            indegree
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe      179
## 0x1c4b70a3968436b9a0a9cf5205c787eb81bb558c       87
## 0x46705dfff24256421a05d056c29e81bdc09723b8       80
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b       78
## 0x6748f50f686bfbca6fe8ad62b22228b87f31ff2b       73
## 0xe93381fb4c4f14bda253907b18fad305d799241a       71
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58       68
## 0xab5c66752a9e8167967685f1450532fb96d5d24f       24
## 0xfdb16996831753d5331ff813c29a93c76834a0ad       18
## 0x7cd932d8997f202830a02cae6588615ecef1d37c       12

data.frame(
  node = V(geth_g)$name[top_out],
  outdegree = deg_out[top_out]
)

##                                                                                  node
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b 0x5c985e89dde482efe97ea9f1950ad149eb73829b
## 0xe93381fb4c4f14bda253907b18fad305d799241a 0xe93381fb4c4f14bda253907b18fad305d799241a
## 0x46705dfff24256421a05d056c29e81bdc09723b8 0x46705dfff24256421a05d056c29e81bdc09723b8
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe 0x0d0707963952f2fba59dd06f2b425ace40b492fe
## 0x6748f50f686bfbca6fe8ad62b22228b87f31ff2b 0x6748f50f686bfbca6fe8ad62b22228b87f31ff2b
## 0x7cd932d8997f202830a02cae6588615ecef1d37c 0x7cd932d8997f202830a02cae6588615ecef1d37c
## 0xfdb16996831753d5331ff813c29a93c76834a0ad 0xfdb16996831753d5331ff813c29a93c76834a0ad
## 0xab5c66752a9e8167967685f1450532fb96d5d24f 0xab5c66752a9e8167967685f1450532fb96d5d24f
## 0xadb2b42f6bd96f5c65920b9ac88619dce4166f94 0xadb2b42f6bd96f5c65920b9ac88619dce4166f94
##                                            outdegree
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58       119
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b       111
## 0xe93381fb4c4f14bda253907b18fad305d799241a       111
## 0x46705dfff24256421a05d056c29e81bdc09723b8       106
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe        99
## 0x6748f50f686bfbca6fe8ad62b22228b87f31ff2b        95
## 0x7cd932d8997f202830a02cae6588615ecef1d37c        66
## 0xfdb16996831753d5331ff813c29a93c76834a0ad        39
## 0xab5c66752a9e8167967685f1450532fb96d5d24f        37
## 0xadb2b42f6bd96f5c65920b9ac88619dce4166f94        31

Indegree i outdegree imaju medijan 1 i treći kvartil 1, dok maksimumi dosežu 179 (in) i 119 (out). To implicira izrazito neravnomjernu strukturu: većina adresa sudjeluje u jednoj (ili vrlo malo) relacija, dok mali broj adresa akumulira velik broj ulaznih/izlaznih veza. To je tipična “hub-and-spoke” konfiguracija i sugerira postojanje adresa koje djeluju kao agregatori, distributeri, ili infrastrukturni entiteti (npr. burze, poolovi, servisne adrese).

Za “volumenske hubove”:

s_in_g  <- igraph::strength(geth_g, mode="in",  weights=E(geth_g)$weight)
s_out_g <- igraph::strength(geth_g, mode="out", weights=E(geth_g)$weight)

top_sin  <- order(s_in_g, decreasing=TRUE)[1:10]
top_sout <- order(s_out_g, decreasing=TRUE)[1:10]

data.frame(node=V(geth_g)$name[top_sin],  strength_in=s_in_g[top_sin])

##                                                                                  node
## 0xa4569255489abe933c6eedbc7cf1b283a33f27f9 0xa4569255489abe933c6eedbc7cf1b283a33f27f9
## 0x0000000000000000000000000000000000000000 0x0000000000000000000000000000000000000000
## 0x0a98fb70939162725ae66e626fe4b52cff62c2e5 0x0a98fb70939162725ae66e626fe4b52cff62c2e5
## 0x49517ca7b7a50f592886d4c74175f4c07d460a70 0x49517ca7b7a50f592886d4c74175f4c07d460a70
## 0x3567cafb8bf2a83bbea4e79f3591142fb4ebe86d 0x3567cafb8bf2a83bbea4e79f3591142fb4ebe86d
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe 0x0d0707963952f2fba59dd06f2b425ace40b492fe
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b 0x5c985e89dde482efe97ea9f1950ad149eb73829b
## 0x7b8c69a0f660cd43ef67948976daae77bc6a019b 0x7b8c69a0f660cd43ef67948976daae77bc6a019b
## 0x46705dfff24256421a05d056c29e81bdc09723b8 0x46705dfff24256421a05d056c29e81bdc09723b8
##                                            strength_in
## 0xa4569255489abe933c6eedbc7cf1b283a33f27f9   217997500
## 0x0000000000000000000000000000000000000000   202299006
## 0x0a98fb70939162725ae66e626fe4b52cff62c2e5   196959488
## 0x49517ca7b7a50f592886d4c74175f4c07d460a70   191968500
## 0x3567cafb8bf2a83bbea4e79f3591142fb4ebe86d   182545116
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58   182007534
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe    57352835
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b    31590808
## 0x7b8c69a0f660cd43ef67948976daae77bc6a019b    29613001
## 0x46705dfff24256421a05d056c29e81bdc09723b8    28451475

data.frame(node=V(geth_g)$name[top_sout], strength_out=s_out_g[top_sout])

##                                                                                  node
## 0x3567cafb8bf2a83bbea4e79f3591142fb4ebe86d 0x3567cafb8bf2a83bbea4e79f3591142fb4ebe86d
## 0xa4569255489abe933c6eedbc7cf1b283a33f27f9 0xa4569255489abe933c6eedbc7cf1b283a33f27f9
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58
## 0x0a98fb70939162725ae66e626fe4b52cff62c2e5 0x0a98fb70939162725ae66e626fe4b52cff62c2e5
## 0xe723f2e91ad9f84595408a9f1688361e956722e2 0xe723f2e91ad9f84595408a9f1688361e956722e2
## 0x9f16498da0d1f1f3c2321f8e3259ec7c56b08e77 0x9f16498da0d1f1f3c2321f8e3259ec7c56b08e77
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b 0x5c985e89dde482efe97ea9f1950ad149eb73829b
## 0x46705dfff24256421a05d056c29e81bdc09723b8 0x46705dfff24256421a05d056c29e81bdc09723b8
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe 0x0d0707963952f2fba59dd06f2b425ace40b492fe
## 0x7b8c69a0f660cd43ef67948976daae77bc6a019b 0x7b8c69a0f660cd43ef67948976daae77bc6a019b
##                                            strength_out
## 0x3567cafb8bf2a83bbea4e79f3591142fb4ebe86d    229100200
## 0xa4569255489abe933c6eedbc7cf1b283a33f27f9    217997498
## 0xfa4b5be3f2f84f56703c42eb22142744e95a2c58    197118741
## 0x0a98fb70939162725ae66e626fe4b52cff62c2e5    185825106
## 0xe723f2e91ad9f84595408a9f1688361e956722e2    182545116
## 0x9f16498da0d1f1f3c2321f8e3259ec7c56b08e77    138234395
## 0x5c985e89dde482efe97ea9f1950ad149eb73829b     35487849
## 0x46705dfff24256421a05d056c29e81bdc09723b8     30448848
## 0x0d0707963952f2fba59dd06f2b425ace40b492fe     29651803
## 0x7b8c69a0f660cd43ef67948976daae77bc6a019b     29054997

Ponderirani indegree/outdegree (strength) još jače naglašava koncentraciju. Vidimo čvorove s ekstremno velikim ulaznim i izlaznim volumenom. Posebno je indikativna pojava adrese 0x000…000 među vrhovima po strength_in – u Ethereum ekosustavu to se često pojavljuje kao “burn/mint” semantika ili tehnički artefakt (ovisno o tokenu i logici ugovora). U interpretaciji mreže to znači da dio volumena može biti vezan uz emisiju/gašenje tokena ili specifične mehanizme ugovora, a ne nužno uz “tržišnu” razmjenu između ekonomskih subjekata.

Lokalna kohezija: klasteriranje / tranzitivnost

Za usmjeren graf se često gleda undirected projekcija za triplete (trijade).

trans_global <- transitivity(as.undirected(geth_g), type="global")
trans_local  <- transitivity(as.undirected(geth_g), type="local")
trans_global

## [1] 0.01181813

summary(trans_local)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##  0.0000  0.0000  0.0000  0.2179  0.3333  1.0000     179

Globalna tranzitivnost na neusmjerenoj projekciji je \(≈ 0,0118\), što je vrlo nisko. To znači da su trokutasti obrasci (A–B–C s A–C) rijetki: sustav nema jake lokalne triplete/ trijade, nego je dominantno sastavljen od lanaca i zvjezdastih struktura. Lokalno klasteriranje ima mnogo nula i dosta NA (tipično kod čvorova malog stupnja), što je očekivano u rijetkim mrežama gdje većina čvorova ima stupanj 1.

Putovi i “small-world” osjećaj (uz oprez)

Na većim grafovima koristi se uzorkovanje.

set.seed(1)
sample_nodes <- sample(V(geth_g), size = min(2000, vcount(geth_g)))

# prosječna duljina putova na uzorku (undirected, jer directed često nema put)
d_sub <- igraph::distances(geth_g, v = sample_nodes, to = sample_nodes, weights = NA)
d_sub <- d_sub[is.finite(d_sub) & d_sub > 0]

summary(d_sub)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   3.000   3.000   3.243   4.000   8.000

Za interpretaciju strukturne blizine u smislu “koliko je transfera udaljeno”, računamo udaljenosti s weights = NA (tj. ignorirati težine) i tada možemo interpretirati tipičan broj koraka. U suprotnom, dobivamo “udaljenost” u jedinicama tokena, što nema standardno značenje kao geodezijska udaljenost. Vidimo da su čvorovi prosječno udaljeni za oko tri koraka. 50% središnjih čvorova udaljeno je 3 - 4 koraka. Najudaljenijim čvorovima potrebno je 8 koraka.

Jezgra/periferija: coreness + tvoje kvartilne klase

core <- coreness(geth_g)
summary(core)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.000   2.000   2.000   2.148   2.000   7.000

V(geth_g)$core_q <- cut(
  core,
  breaks = 1:7,
  labels = c(1:6),
  include.lowest = TRUE
)

cols <- c('#878787','#bababa','#e0e0e0','#fddbc7','#f4a582','#d6604d')                    

# dodajemo boje; https://colorbrewer2.org/?type=diverging&scheme=RdGy&n=9

V(geth_g)$core_col <- cols[V(geth_g)$core_q]

Coreness ima medijan 2, a maksimum 7. To znači da mreža nema duboku, gustu jezgru nalik “institucionalnom” core-u; umjesto toga dominira struktura gdje se većina čvorova može održati tek u vrlo plitkim k-jezgrama. Emergentno, to upućuje na sustav u kojem su velike transakcije raspoređene kroz slabo redundantne veze: robustnost prema uklanjanju čvorova može biti ograničena jer visokokohesivna jezgra nije izražena.

Legenda u base-igraph plotu:

plot(geth_g,
     layout = lay,
     vertex.size = 4,
     vertex.label = NA,
     vertex.color = V(geth_g)$core_col,
     edge.arrow.size = 0.5,
     edge.color = "grey85")

Vizualno, FR raspored tipično naglašava koncentraciju oko središta (hub-and-spoke), dok Sugiyama raspored često otkriva slojevitu, usmjerenu strukturu (nalik lancima i grananjima), što se i vidi na prikazima: mali broj crvenih (jezgrenih) čvorova u jezgri i mnogo perifernih čvorova koji su vezani jednim ili s malo bridova.

lay2 <- layout_with_sugiyama(geth_g)
plot(geth_g,
     layout = lay2,
     vertex.size = 4,
     vertex.label = NA,
     vertex.color = V(geth_g)$core_col,
     edge.arrow.size = 0.5,
     edge.color = "grey85")

Zajednice (community detection)

Za usmjerene mreže često radimo na undirected verziji s weight.

comm <- cluster_walktrap(geth_g, weights = E(geth_g)$weight)
comm

## IGRAPH clustering walktrap, groups: 440, mod: 0.51
## + groups:
##   $`1`
##    [1] "0xc4bf51f30a7a8002942d67fca04c3a40f40d2311"
##    [2] "0x775b46edf99646f03a80a9d9bf46f650650e757a"
##    [3] "0xef13d3ba7c1573ed852d0be94d0e7d745d2946b9"
##    [4] "0x85cdee8aa4585e1acbc483263e70f71fc321f210"
##    [5] "0xbb23477e4afcb3fd90fe54e4443f7ad3b9cb68fe"
##    [6] "0x10462792bf9adb0dd23d4dc7d1d601011e876e48"
##    [7] "0xeee28d484628d41a82d01e21d12e2e78d69920da"
##    [8] "0xe5bd68c424dc04bf8a50a7234d5387e07bed9251"
##    [9] "0x46b016c70404482fe78ef4a26e8d81e3e8876a83"
##   + ... omitted several groups/vertices

sizes_comm <- sizes(comm)
sizes_comm

## Community sizes
##   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18  19  20 
##  11   5   2  41   2   4  12  38   4   2   2   2   2   2   6   3   2   4   2   8 
##  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36  37  38  39  40 
##   3 156   4   7   3  21   2   2   4  40   2  40   2   2   2   2   2  21  25   2 
##  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55  56  57  58  59  60 
##   5   2  14   5  10   4   2   2   3   2   2   2   2   3   2   2   2  15   4   3 
##  61  62  63  64  65  66  67  68  69  70  71  72  73  74  75  76  77  78  79  80 
##   2   3   2   2   3   2   3   3   2   2   2   3   3   2   2   2   2   2   2   2 
##  81  82  83  84  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 100 
##   2   2   2   2   2   2   2   2   2   5   2   2   2   2   2   2   2   2   2   2 
## 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 
##   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   2   1   1   1 
## 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259 260 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339 340 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379 380 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1 
## 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 
##   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1   1

Walktrap daje vrlo velik broj zajednica (440) uz relativno visoku modularnost (Q ≈ 0.51). Interpretacijski, to znači da, iako mreža ima jednu divovsku slabu komponentu, ona je sastavljena od mnogih lokalnih klastera (npr. skupine adresa koje često trguju ili premještaju vrijednost kroz isti “kanal”), koje su međusobno povezane relativno malim brojem bridova. U transakcijskim mrežama to često odgovara “otokovima” aktivnosti (pojedini servisi/poolovi/skupine korisnika) povezanim preko nekoliko većih aktera.

Važno: toliko velik broj zajednica djelomično proizlazi i iz toga što smo uzeli samo top 1% transfera – time se mreža raslojava na mnoge male podsustave, jer sitniji bridovi koji bi inače povezivali module nisu uključeni.

U nastavku prikazujemo zajednice s po više od 20 članova.

big_comm_ids <- which(sizes_comm > 20)
big_comm_ids

##  4  8 22 26 30 32 38 39 
##  4  8 22 26 30 32 38 39

sizes_comm[big_comm_ids]

## Community sizes
##   4   8  22  26  30  32  38  39 
##  41  38 156  21  40  40  21  25

V(geth_g)$membership <- membership(comm)
nodes_big_comm <- V(geth_g)$name[comm$membership %in% big_comm_ids]

sum(sizes_comm[big_comm_ids])

## [1] 382

length(nodes_big_comm)

## [1] 382

big_comm <- V(geth_g)[V(geth_g)$membership %in% big_comm_ids]
# inducirani podgraf
geth_g_comm <- induced_subgraph(geth_g, vids = big_comm)

V(geth_g_comm)$comm_f <- factor(V(geth_g_comm)$membership, levels = big_comm_ids)

cols2 <- c('#8dd3c7','#ffffb3','#bebada','#fb8072','#80b1d3','#fdb462','#b3de69','#fccde5')                    

# dodajemo boje; https://colorbrewer2.org/#type=qualitative&scheme=Set3&n=8

V(geth_g_comm)$com_col <- cols2[as.integer(V(geth_g_comm)$comm_f)]

set.seed(7)
lay3 <- layout_with_fr(geth_g_comm)*3

plot(geth_g_comm,
     layout = lay3,
     vertex.size = 4,
     vertex.label = NA,
     vertex.color = V(geth_g_comm)$com_col,
     edge.arrow.size = 0.5,
     edge.color = "grey85")

legend("topleft",
       legend = paste0("Zajednica ", levels(V(geth_g_comm)$comm_f)),
       col    = cols2[seq_along(levels(V(geth_g_comm)$comm_f))],
       pch = 19, pt.cex = 1.2, bty = "n")

Centralnosti (sa smislenim odabirom)

Minimalni set koji daje “priču”:

# stupnjeve i strength već imamo
pr <- page_rank(geth_g, weights = E(geth_g)$weight)$vector
V(geth_g)$pr <- pr
summary(V(geth_g)$pr)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 0.0002292 0.0002685 0.0003383 0.0009728 0.0005807 0.0714856

# betweenness je skup na velikim grafovima; probaj na podgrafu ili bez težina
bt <- igraph::betweenness(geth_g, directed = TRUE, normalized = TRUE)
V(geth_g)$bt <- bt
summary(V(geth_g)$bt)

##      Min.   1st Qu.    Median      Mean   3rd Qu.      Max. 
## 0.0000000 0.0000000 0.0000000 0.0032232 0.0008826 0.3593891

# Authority
auth <- igraph::authority_score(geth_g)$vector
V(geth_g)$auth <- auth
summary(V(geth_g)$auth)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.000000 0.000000 0.000000 0.001148 0.000000 1.000000

# Hub
hub <- igraph::hub_score(geth_g)$vector
V(geth_g)$hub <- hub
summary(V(geth_g)$hub)

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
## 0.000000 0.000000 0.000000 0.001118 0.000000 1.000000

par(mfrow=c(2,2))

plot(geth_g,
     layout = lay,
     vertex.color = "#fdae61",
     vertex.label = NA,
     vertex.size = V(geth_g)$pr*100,
     edge.arrow.size = 0.5,
     edge.color = "grey85",
     main = "Page rank")

plot(geth_g,
     layout = lay,
     vertex.color = "#abd9e9",
     vertex.label = NA,
     vertex.size = V(geth_g)$bt*50,
     edge.arrow.size = 0.5,
     edge.color = "grey85",
     main = "Beetwenness")

plot(geth_g,
     layout = lay,
     vertex.color = "#bf812d",
     vertex.label = NA,
     vertex.size = V(geth_g)$auth*10,
     edge.arrow.size = 0.5,
     edge.color = "grey85",
     main = "Authority")

plot(geth_g,
     layout = lay,
     vertex.color = "#b8e186",
     vertex.label = NA,
     vertex.size = V(geth_g)$hub*10,
     edge.arrow.size = 0.5,
     edge.color = "grey85",
     main = "Hub")

PageRank pokazuje da većina čvorova ima vrlo niske vrijednosti, a mali broj značajno odskače (max \(~0,071\)). Betweenness je za većinu 0, uz rijetke čvorove s većim vrijednostima: to je tipično u mreži zvjezdastih struktura gdje hubovi postaju ključne točke preusmjeravanja. Hub/authority score ima masu na nuli i maksimum 1, što sugerira da postoje čvorovi koji su vrlo blizu idealnim ulogama “hubova” (distribuiraju prema mnogima) i “authority” čvorova (primaju od mnogih), ali većina čvorova nema takvu ulogu.

Promatrana mreža velikih transakcija za jedan token pokazuje tipičan obrazac blockchain prometa: ekstremnu rijetkost, asimetrične tokove uz nizak reciprocitet, dominaciju nekoliko hubova po broju veza i volumenu, te slabu lokalnu koheziju (vrlo nisko klasteriranje). Emergentno, sustav se ponaša kao mreža protoka s nekoliko infrastrukturnih “čvorišta” koja organiziraju promet i mnoštvom perifernih adresa koje sudjeluju epizodično. Istodobno, visoka modularnost i mnoštvo zajednica sugeriraju funkcionalnu segmentaciju (lokalni ekosustavi transakcija), dok velika slabo povezana komponenta pokazuje da je ekosustav i dalje integriran na razini dosežnosti kad zanemarimo smjer.

hr>

Memento

Kohezija – Opća razina povezanosti mreže; stupanj u kojem mreža “drži na okupu” svoje čvorove kroz višestruke putove i redundantne veze.

Gustoća (density) – Omjer ostvarenih i maksimalno mogućih veza u mreži.

Povezanost (connectedness) – Postojanje putova između parova čvorova; mjera u kojoj je mreža dostupna kao cjelina.

Komponente – Maksimalni podskupovi čvorova unutar kojih postoji put između svakog para čvorova.

Najveća (giant) komponenta – Komponenta s najvećim brojem čvorova; u velikim mrežama često nosi većinu strukture sustava.

Fragmentacija – Suprotno od kohezije; mjera u kojoj je mreža podijeljena na odvojene komponente.

Tranzitivnost (globalni koeficijent klasterizacije) – Vjerojatnost zatvaranja trokuta; mjera lokalne kohezije i zatvorenosti mreže. Koeficijnt klasterizacije računamo i interpretiramo na neusmjerenoj projekciji jer je riječ o zatvaranju trokuta.

Klike (clique) – Potpuno povezana podskupina čvorova.

K-core – Maksimalni podgraf u kojem svaki čvor ima barem k veza unutar tog podgrafa.

Coreness – Najveća vrijednost k za koju čvor pripada k-core podgrafu. Napomena: u igraphu se coreness računa na temelju stupnja u neusmjerenoj projekciji, tj. smjer veza se zanemaruje.

K-shell – Skup čvorova koji imaju istu coreness vrijednost.

Jezgra (core) – Strukturno centralni i međusobno gusto povezani dio mreže, često s većim stupnjem i višim coreness vrijednostima.

Periferija (periphery) – Čvorovi slabije povezani, često ovisni o jezgri.

Core–periphery struktura – Obrazac u kojem postoji gusta, međusobno povezana jezgra i rjeđa periferija koja je primarno povezana s jezgrom.

Zajednice (communities) – Skupine čvorova koje imaju više veza unutar skupine nego prema ostatku mreže.

Detekcija zajednica – Algoritamski postupak identifikacije takvih skupina.

Modularnost (Q) – Mjera kvalitete particije; uspoređuje stvaran broj veza unutar zajednica s očekivanim brojem pod nul-modelom.

Louvain algoritam – Heuristička metoda maksimalizacije modularnosti kroz iterativno agregiranje zajednica.

Girvan–Newman algoritam – Postupak koji uklanja bridove s visokim betweenness centralitetom radi identifikacije zajednica.

Walktrap algoritam – Metoda koja koristi kratke nasumične šetnje za otkrivanje strukturnih modula.

Preklapajuće zajednice (overlapping communities) – Situacija u kojoj čvor pripada više zajednica.

Strukturne rupe (structural holes) – Nepovezani dijelovi mreže između kojih posrednički čvor može ostvariti brokersku prednost.

Burtova teorija strukturnih rupa – Teorijski okvir prema kojem akteri koji premošćuju nepovezane grupe ostvaruju informacijske i strateške prednosti.

Constraint (Burt constraint) – Mjera stupnja u kojem je čvor ograničen redundantnim susjedstvom; niža vrijednost upućuje na izraženiju brokersku poziciju.

Brokeri – Čvorovi koji povezuju različite zajednice ili komponente.

Posredničke veze (bridging ties) – Veze koje spajaju inače slabo povezane dijelove mreže.

Asortativnost po stupnju – Korelacija stupnjeva čvorova na krajevima bridova; pozitivna vrijednost označava povezivanje sličnih po stupnju.

Homofilija – Tendencija povezivanja čvorova koji dijele isti atribut.

Pareto koncentracija (20/80 pravilo) – Neravnomjerna raspodjela stupnjeva ili utjecaja; mali udio čvorova nosi velik udio veza.

Gini koeficijent – Opća mjera nejednakosti raspodjele stupnjeva.

Small-world svojstvo – Kombinacija kratke prosječne duljine putova i relativno visoke tranzitivnosti.

Scale-free struktura – Mreža čija distribucija stupnjeva slijedi potencijsku (power-law) raspodjelu.

Difuzija – Širenje informacija, utjecaja ili rizika kroz mrežnu strukturu.

Pitanja za ponavljanje

Što mjeri gustoća (density) mreže?

Prosječan broj posrednika između dva čvora
Udio ostvarenih veza u odnosu na maksimalno moguće veze
Broj komponenti u mreži
Razliku između jezgre i periferije

Kada je mreža povezana (connected)?

Kada svaki čvor ima barem jednu vezu
Kada postoji put između svakog para čvorova
Kada je gustoća veća od 0.5
Kada je broj komponenti jednak broju čvorova

Što je komponenta u mreži?

Skup čvorova s najvećim stupnjem
Podgraf bez ciklusa
Maksimalni podskup čvorova povezan putovima
Skup čvorova iste coreness vrijednosti

Što označava giant komponenta?

Najgušći dio mreže
Komponentu s najvećim promjerom
Komponentu s najvećim brojem čvorova
Skup čvorova s najvećim betweennessom

Što je k-core?

Podgraf u kojem svaki čvor ima barem k veza unutar tog podgrafa
Skup čvorova s točno k veza u cijeloj mreži
Podgraf maksimalne gustoće
Zajednica maksimalne modularnosti

Što predstavlja coreness čvora?

Broj njegovih susjeda
Njegovu pripadnost najvećoj komponenti
Najveću vrijednost k za koju pripada k-core podgrafu
Njegovu poziciju u Louvain algoritmu

Što je core–periphery struktura?

Struktura s više nepovezanih komponenti
Struktura s gustom jezgrom i rjeđom periferijom
Struktura s uniformnom gustoćom veza
Struktura bez lokalnih klastera

Što mjeri modularnost (Q)?

Razliku između promjera i prosječne udaljenosti
Udio veza unutar jezgre
Kvalitetu podjele na zajednice u odnosu na nul-model
Broj čvorova u najvećoj zajednici

Louvain algoritam optimizira:

Prosječnu duljinu putova
Modularnost particije
Broj k-core slojeva
Vrijednost tranzitivnosti

Girvan–Newman algoritam temelji se na:

Uklanjanju čvorova s najvećim stupnjem
Uklanjanju bridova s visokim betweennessom
Iterativnom povećanju gustoće
Randomizaciji strukture mreže

Što su preklapajuće zajednice?

Zajednice koje imaju istu gustoću
Zajednice koje dijele barem jednu vezu
Situacije u kojima čvor pripada više zajednica
Zajednice unutar giant komponente

Tranzitivnost mjeri:

Udio zatvorenih trokuta u odnosu na moguće triplete
Broj putova između zajednica
Razinu fragmentacije mreže
Broj mostova između komponenti

Promjer mreže definira se kao:

Prosječna udaljenost između čvorova
Najdulji najkraći put između bilo koja dva čvora
Broj k-core slojeva
Razlika između jezgre i periferije

Strukturne rupe odnose se na:

Nedostatak veza unutar jezgre
Nepovezane dijelove mreže koje broker može premostiti
Preklapanje zajednica
Potpunu fragmentaciju mreže

Burtovo ograničenje mjeri:

Ograničenost čvora redundantnim susjedstvom
Stupanj čvora s redundantnim susjedstvom u mreži
Udio bridging bridova s redundantnim susjedstvom
Modularnost čvora s redundantnim susjedstvom u mreži

Broker u mreži je:

Čvor s najvećim stupnjem
Čvor s visokom tranzitivnošću
Čvor koji povezuje inače slabo povezane dijelove mreže
Čvor u najvećoj komponenti

Bridging veza je:

Veza između čvorova iste zajednice
Veza koja zatvara trokut
Veza koja spaja različite zajednice
Veza unutar k-core podgrafa

Fragmentirana mreža karakterizirana je:

Jednom dominantnom komponentom
Visokom gustoćom i niskom tranzitivnošću
Više nepovezanih komponenti
Uniformnom raspodjelom stupnjeva

Razlika između gustoće i povezivosti je:

Gustoća mjeri udio veza, a povezivost postojanje putova
Gustoća mjeri komponente, a povezivost modularnost
Gustoća mjeri jezgru, a povezivost periferiju
Gustoća i povezivst su sinonimi

Zajednice se definiraju kao:

Skup čvorova iste coreness vrijednosti
Grupe s više veza unutar nego izvan grupe
Skup čvorova u giant komponenti
Skup čvorova s najvećim stupnjem

Pareto pravilo u mrežama označava:

\(20 %\) čvorova generira \(80 %\) trokuta
Mali udio čvorova nosi velik udio ukupnog stupnja
\(80 %\) čvorova pripada jezgri
\(20 %\) čvorova čini giant komponentu

Gini koeficijent mjeri:

Prosječnu udaljenost
Nejednakost raspodjele stupnjeva
Broj zajednica
Vrijednost modularnosti

Lorenzova krivulja prikazuje:

Distribuciju komponenti
Kumulativnu raspodjelu udjela stupnjeva
Raspodjelu tranzitivnosti
Broj k-core slojeva

Asortativnost po stupnju > 0 znači:

Hubovi se povezuju s perifernima
Čvorovi se povezuju slučajno
Visoko povezani čvorovi povezuju se međusobno
Mreža je fragmentirana

Negativna asortativnost tipična je za:

Potpuno regularne mreže
Hub–spoke strukture
Potpuno klasterske mreže
Random grafove bez varijacije

Homofilija označava:

Tendenciju povezivanja sličnih čvorova
Povezivanje najudaljenijih čvorova
Slučajnu distribuciju atributa
Centralizaciju mreže

Small-world mreže imaju:

Velik promjer i nisku tranzitivnost
Kratke putove i visoku klasterizaciju
Uniformnu raspodjelu stupnjeva
Potpunu fragmentaciju

Scale-free mreže karakterizira:

Normalna raspodjela stupnjeva
Poissonova raspodjela stupnjeva
Potencijska raspodjela stupnjeva
Uniformna raspodjela stupnjeva

Emergentno svojstvo je:

Svojstvo pojedinačnog čvora
Svojstvo nastalo agregacijom cijele mreže
Lokalna mjera stupnja
Atribut čvora

Difuzija u mreži ovisi o:

Samo o gustoći
Samo o broju čvorova
Strukturi putova i bridging vezama
Samo o modularnosti

U SIR modelu stanje “I” označava:

Inaktivne čvorove
Izolirane čvorove
Inficirane čvorove
Infrastrukturne čvorove

Prosječna duljina putova utječe na:

Brzinu difuzije
Gustoću mreže
Broj zajednica
Coreness čvora

Visoka tranzitivnost implicira:

Nisku lokalnu koheziju
Slučajnu povezanost
Zatvaranje trokuta
Visoku fragmentaciju

Disasortativna mreža znači da:

Slični stupnjevi se povezuju
Hubovi povezuju perifernije čvorove
Nema hubova
Svi čvorovi imaju isti stupanj

Giant komponenta važna je za difuziju jer:

Povećava modularnost
Omogućuje globalno širenje kroz mrežu
Smanjuje tranzitivnost
Povećava fragmentaciju

Visoka koncentracija stupnjeva sugerira:

Egalitarnu strukturu
Centraliziranu strukturu
Uniformnu raspodjelu
Random raspodjelu

Uloga slabih veza povezana je s:

Lokalnim zatvaranjem trokuta
Povezivanjem različitih klastera
Smanjenjem promjera
Povećanjem gustoće

Small-world efekt kombinira:

Visoku asortativnost i nizak Gini
Kratke putove i visoku tranzitivnost
Visoku gustoću i visok promjer
Uniformnu raspodjelu i modularnost

Power-law eksponent α određuje:

Broj zajednica
Nagib distribucije stupnjeva
Vrijednost modularnosti
Broj komponenti

Robustnost scale-free mreža proizlazi iz:

Uniformne raspodjele stupnjeva
Otpornosti na slučajno uklanjanje čvorova
Visoke gustoće
Niske tranzitivnosti

Korištena literatura

Albert, R., Jeong, H., & Barabási, A.-L. (1999). Diameter of the World-Wide Web. Nature, 401(6749), 130–131.

Barabási, A.-L., & Albert, R. (1999). Emergence of scaling in random networks. Science, 286(5439), 509–512.

Barthélemy, M. (2011). Spatial networks. Physics Reports, 499(1–3), 1–101.

Burt, R. S. (1992). Structural holes: The social structure of competition. Harvard University Press.

Christakis, N. A., & Fowler, J. H. (2007). The spread of obesity in a large social network over 32 years. The New England Journal of Medicine, 357(4), 370–379.

Coleman, J. S., Katz, E., & Menzel, H. (1957). The diffusion of an innovation among physicians. Sociometry, 20(4), 253–270.

Currarini, S., Jackson, M. O., & Pin, P. (2009). An economic model of friendship: Homophily, minorities, and segregation. Econometrica, 77(4), 1003–1045.

Dodds, P. S., Muhamad, R., & Watts, D. J. (2003). An experimental study to search in global social networks. Science, 301(5634), 827–829

Fagiolo, G., Schiavo, S., & Reyes, J. (2009). World-trade web: Topological properties, dynamics, and evolution. Physical Review E, 79(3), 036115

Fink, C. G., Fullin, K., Gutierrez, G., Omodt, N., Zinnecker, S., Sprint, G., & McCulloch, S. (2023). A centrality measure for quantifying spread on weighted, directed networks. Physica A: Statistical Mechanics and its Applications, 626, 129083.

Fink, C. G., Omodt, N., Zinnecker, S., & Sprint, G. (2023). A congressional twitter network dataset quantifying pairwise probability of influence. Data in Brief, 50, 109521.

Granovetter, M. S. (1973). The strength of weak ties. American Journal of Sociology, 78(6), 1360–1380.

Hansen, M. T. (1999). The search-transfer problem: The role of weak ties in sharing knowledge across organization subunits. Administrative Science Quarterly, 44(1), 82–111.

Hägerstrand, T. (1967). Innovation diffusion as a spatial process. University of Chicago Press.- (napomena: često se navodi kao knjiga/monografija; Jackson je navodi kao klasičan izvor difuzije)*

Jackson, M. O. (2008). Social and economic networks. Princeton University Press.

Kostelić, K., & Turk, A. (2021). Topology of World Tourism Web: A complex network analysis. Applied Sciences, 11(5), 2253.

McPherson, M., Smith-Lovin, L., & Cook, J. M. (2001). Birds of a feather: Homophily in social networks. Annual Review of Sociology, 27, 415–444.

Milgram, S. (1967). The small-world problem. Psychology Today, 2(1), 60–67.

Newman, M. E. J. (2002). Assortative mixing in networks. Physical Review Letters, 89(20), 208701.

Price, D. J. de S. (1965). Networks of scientific papers. Science, 149(3683), 510–515.

Ryan, B., & Gross, N. C. (1943). The diffusion of hybrid seed corn in two Iowa communities. Rural Sociology, 8, 15–24.

Schweitzer, F., Fagiolo, G., Sornette, D., Vega-Redondo, F., Vespignani, A., & White, D. R. (2009). Economic networks: The new challenges. Science, 325(5939), 422–425

Serrano, M. Á., & Boguñá, M. (2003). Topology of the world trade web. Physical Review E, 68(1), 015101.

Simini, F., González, M. C., Maritan, A., & Barabási, A.-L. (2012). A universal model for mobility and migration patterns. Nature, 484(7392), 96–100.

Victor, F., Akcora, C. G., Gel, Y. R., & Kantarcioglu, M. (2021, August). Alphacore: data depth based core decomposition. In Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining (pp. 1625-1633).

Wagner, A., & Fell, D. A. (2001). The small world inside large metabolic networks. Proceedings of the Royal Society of London. Series B: Biological Sciences, 268(1478), 1803–1810.

Watts, D. J., & Strogatz, S. H. (1998). Collective dynamics of “small-world” networks. Nature, 393(6684), 440–442.

Ključ odgovora

1 b
2 b
3 c
4 c
5 a
6 c
7 b
8 c
9 b
10 b
11 c
12 a
13 b
14 b
15 a
16 c
17 c
18 c
19 a
20 b
21 b
22 b
23 b
24 c
25 b
26 a
27 b
28 c
29 b
30 c
31 c
32 a
33 c
34 b
35 b
36 b
37 b
38 b
39 b
40 b

Strukturna svojstva mreže i emergentni obrasci

Katarina Kostelić

Kako opisujemo strukturu mreže?

Priprema podataka i postavke

Gustoća mreže (density)

Povezivost mreže (connectedness)

Komponente mreže

Klike i k-core

Klike

k-core

Jezgra i periferija

Detekcija zajednica

Najčešći algoritmi za detekciju zajednica

Louvain metoda (`cluster_louvain`)

Girvan–Newman (`cluster_edge_betweenness`)

Walktrap (`cluster_walktrap`)

Fast Greedy (`cluster_fast_greedy`)

Primjer primjene

Vizualizacija i interpretacija zajednica

Strukturne rupe

Emergentna svojstva

Jacksonova sistematizacija tipičnih obilježja mreža

Pareto (20/80) pravilo

Asortativnost

Tranzitivnost (globalni koeficijent klasterizacije)

Homofilija

Obrasci jezgre i periferije

Uloga slabih veza

Svojstva difuzije

Small-World

Scale-free

Primjer: Twitter Congress

Primjer: AlphaCore (jedan token)

Memento

Pitanja za ponavljanje

Korištena literatura

Ključ odgovora

Strukturna svojstva mreže i emergentni obrasci

Katarina Kostelić

Kako opisujemo strukturu mreže?

Priprema podataka i postavke

Gustoća mreže (density)

Povezivost mreže (connectedness)

Komponente mreže

Klike i k-core

Klike

k-core

Jezgra i periferija

Detekcija zajednica

Najčešći algoritmi za detekciju zajednica

Louvain metoda (cluster_louvain)

Girvan–Newman (cluster_edge_betweenness)

Walktrap (cluster_walktrap)

Fast Greedy (cluster_fast_greedy)

Primjer primjene

Vizualizacija i interpretacija zajednica

Strukturne rupe

Emergentna svojstva

Jacksonova sistematizacija tipičnih obilježja mreža

Pareto (20/80) pravilo

Asortativnost

Tranzitivnost (globalni koeficijent klasterizacije)

Homofilija

Obrasci jezgre i periferije

Uloga slabih veza

Svojstva difuzije

Small-World

Scale-free

Primjer: Twitter Congress

Primjer: AlphaCore (jedan token)

Memento

Pitanja za ponavljanje

Korištena literatura

Ključ odgovora

Louvain metoda (`cluster_louvain`)

Girvan–Newman (`cluster_edge_betweenness`)

Walktrap (`cluster_walktrap`)

Fast Greedy (`cluster_fast_greedy`)