El grado de un nodo en una red tanto dirigida como no dirigida se puede calcular fácilmente a partir de la matriz de adyacencia \(\mathbf{Y}=[y_{i,j}]\). El out-degree \(d_i^{\text{out}}\) y el in-degree \(d_i^{\text{in}}\) del nodo \(i\) se pueden calcular respectivamente como: \[ d_i^{\text{out}} = \sum_{j:j\neq i} y_{i,j} \qquad\text{y}\qquad d_i^{\text{in}} = \sum_{j:j\neq i} y_{j,i} \] Muestre que si la red es no dirigida entonces \(d_i^{\text{out}} = d_i^{\text{in}}\).
Tanto para redes dirigidas como no dirigidas, se define la media global de las interacciones como \[ \bar{y}=\frac{1}{n(n-1)}\sum_{i,j:i\neq j} y_{i,j} \] donde \(\mathbf{Y}=[y_{i,j}]\) es la matriz de adyacencia de la red correspondiente. Tal estadístico corresponde a una descripción muy rudimentaria acerca de la plausibilidad de observar una relación entre dos nodos cualesquiera, dado que no tiene en cuenta la heterogeneidad nodal (algunos nodos son más propensos a enviar/recibir más relaciones).
Considere un grafo estrella de orden \(n\) y un grafo círculo de orden \(n\). A continuación se representan ambos grafos para \(n=9\). Estos grafos tienen aproximadamente la misma densidad, pero su estructura es muy diferente.
¿Cuáles de las siguientes secuencias son caminatas en el grafo que se presenta a continuación? ¿Cuáles senderos? ¿Cuáles circuitos? ¿Cuáles ciclos?
comtrade.RData
(este archivo contiene una arreglo de tres dimensiones denominado
comtrade), asociado con el crecimiento anual del comercio
(diferencia en dólares en escala logarítmica respecto al año 2000). Este
conjunto de datos involucra 30 países, 10 años desde 1996 hasta 2005, y
6 clases de productos diferentes, como se muestra a continuación:load("comtrade.RData")
dimnames(comtrade)[c(1,3,4)]
## [[1]]
## [1] "Australia" "Austria" "Brazil"
## [4] "Canada" "China" "China, Hong Kong SAR"
## [7] "Czech Rep." "Denmark" "Finland"
## [10] "France" "Germany" "Greece"
## [13] "Indonesia" "Ireland" "Italy"
## [16] "Japan" "Malaysia" "Mexico"
## [19] "Netherlands" "New Zealand" "Norway"
## [22] "Rep. of Korea" "Singapore" "Spain"
## [25] "Sweden" "Switzerland" "Thailand"
## [28] "Turkey" "United Kingdom" "USA"
##
## [[2]]
## [1] "Chemicals"
## [2] "Crude materials, inedible, except fuels"
## [3] "Food and live animals"
## [4] "Machinery and transport equipment"
## [5] "Manufact goods classified chiefly by material"
## [6] "Miscellaneous manufactured articles"
##
## [[3]]
## [1] "1996" "1997" "1998" "1999" "2000" "2001" "2002" "2003" "2004" "2005"
Y dada por:Y <- apply(X = comtrade[,,c(5,6),], MARGIN = c(1,2), FUN = mean)
Calcule la media de todas las observaciones de cada fila de
Y, es decir, calcule la media fila \(\bar{y}_{i\bullet}=\frac{1}{n-1}\sum_{j:j\neq i}
y_{i,j}\) para cada país. Realice una histograma de los promedios
fila \(\bar{y}_{i\bullet}\). Los
promedios fila caracterizan diferentes niveles de actividad de los nodos
en términos de la sociabilidad. ¿Cómo se pueden interpretar los
promedios fila \(\bar{y}_{i\bullet}\)?
Calcule la media de todas las observaciones de cada columna de
Y, es decir, calcule la media columna \(\bar{y}_{\bullet j}=\frac{1}{n-1}\sum_{i:i\neq j}
y_{i,j}\) para cada país. Realice una histograma de los promedios
columna \(\bar{y}_{\bullet j}\). Los
promedios columna caracterizan diferentes niveles de actividad de los
nodos en términos de la popularidad. ¿Cómo se pueden interpretar los
promedio columna \(\bar{y}_{\bullet
j}\)?
Calcule tanto la media de los promedios fila \(\bar{y}_{i\bullet}\) como la media de los promedios columna \(\bar{y}_{\bullet j}\).¿Qué se puede concluir acerca de la tendencia local en este caso?
Calcule tanto la desviación estándar (DE) de los promedios fila \(\bar{y}_{i\bullet}\) como la DE de los promedios columna \(\bar{y}_{\bullet j}\). ¿Qué se puede concluir acerca de la heterogeneidad local en este caso?
Calcule el coeficiente de correlación (CV) entre los promedios fila \(\bar{y}_{i\bullet}\) y los promedios columna \(\bar{y}_{\bullet j}\). Realice un dispersograma de los promedios columna \(\bar{y}_{\bullet j}\) (eje \(y\)) frente a los promedios fila \(\bar{y}_{i\bullet}\) (eje \(x\)), junto con la recta \(y=x\) como punto de referencia. ¿Qué se puede concluir?
Considere el conjunto de datos dado en
conflict.RData recopilado por Mike Ward y Xun Cao del
departamento de Ciencias Políticas de la Universidad de Washington,
asociado con datos de conflictos entre países en los años 90. El archivo
conflict.RData contiene una lista con tres arreglos,
X, Y, y D. X tiene
tres campos: population (población en millones),
gdp (PIB en millones de dolares) polity
(puntuación política, un índice de democracia). Y hace
referencia a una matriz \(\mathbf{Y}=[y_{i,j}]\) en la que \(y_{i,j}\) representa el número de
conflictos iniciados por el país \(i\)
hacia el país \(j\). Finalmente,
Des un arreglo de tres dimensiones dimensiones cuya tercera
dimensión contiene indices entre cada par de países asociados con:
comercio (dimensión 1), importaciones (dimensión 2), organizaciones
intergubernamentales (dimensión 3), y distancia geográfica (dimensión
4).
Para todos los vértices de los cuatro grafos que se presentan a continuación, calcular el grado y las medidas de centralidad. Para cada grafo completar e interpretar la siguiente tabla. Interpretar los resultados.
| Medida | Grado | Cercanía | Intermediación | Propia |
|---|---|---|---|---|
| Media | ||||
| DE |
Considere los datos relacionales acerca de los conflictos
internacionales del archivo conflict.RData despúes de
simetrizarla débilmente y remover los nodos aislados:
Sintetizar y replicar los Capítulos 6, 8, y 9 de Luke, D. A. (2015).
Para todas las visualizaciones decoradas de este taller, realizar visualizaciones alternativas usando heat maps y hive plots.
Además de la ley de potencias para la distribución del grado, existen alternativas comunes como la distribución log normal, la exponencial, la Poisson y la ley de potencias con corte exponencial. Caracterizar cada una de estas opciones de manera detallada y concisa, describiendo su forma y la intuición que representa en términos de heterogeneidad y presencia de nodos altamente conectados. Explicar para qué sirve modelar la distribución del grado, en qué contextos resulta apropiado usar cada familia, y cuáles son sus principales ventajas y desventajas desde el punto de vista interpretativo y empírico. Seleccionar una de estas distribuciones y ejemplificar su uso con un conjunto de datos real de su elección, incluyendo una evaluación del ajuste y una interpretación de los resultados.
Además del grado, la centralidad por cercanía, la centralidad por intermediación y la centralidad propia, existen otras medidas relevantes para cuantificar la importancia de los nodos en una red. En el caso de redes no dirigidas, caracterizar de manera detallada y concisa las medidas PageRank, Katz centrality, Harmonic centrality y VoteRank, incluyendo la intuición estadística que las motiva y el tipo de estructura que cada una prioriza. Luego, con base en el conjunto de datos real utilizado en el numeral anterior, calcular estas medidas para todos los nodos, presentar los principales resultados, comparar los rankings obtenidos e interpretar las diferencias observadas en términos de la estructura de la red y del rol de los nodos más destacados.
Luke, D. A. (2015). A user’s guide to network analysis in R. New York: Springer. https://link.springer.com/book/10.1007/978-3-319-23883-8