Omar Esteban Agredo Titimbo – 202324642
Arianna Ramírez Pinzón – 202372123
Heidy Tatiana Suárez López – 202372130
Shelcean Daniela Cortés Duarte – 202322389
El presente estudio tiene como propósito analizar y segmentar a los países del mundo según sus características económicas, sociales, demográficas y ambientales, utilizando información proveniente del World Development Indicators (Banco Mundial, 2023). Como grupo se seleccionó el año 2023 debido a su relevancia como periodo posterior a la pandemia por COVID-19, un contexto en el que resulta fundamental comprender cómo las naciones se han recuperado en términos de desarrollo, sostenibilidad y equidad.
El análisis busca identificar patrones de desarrollo entre los países y establecer grupos con condiciones estructurales similares, que permitan interpretar desigualdades y dinámicas globales contemporáneas. Para ello, se emplean técnicas de reducción de dimensionalidad (Análisis de Componentes Principales – ACP) y segmentación (análisis de clústeres jerárquico con método de Ward), las cuales posibilitan sintetizar la información de múltiples indicadores y agrupar a los países de acuerdo con su similitud estadística.
Este enfoque no solo permite visualizar las diferencias y similitudes entre países, sino también construir una base interpretativa útil para la toma de decisiones en políticas públicas, cooperación internacional y planificación económica.
La base de datos contiene 17 variables cuantitativas seleccionadas por su relevancia para medir el desarrollo de los países. Las variables se agrupan en cuatro categorías:
a) Economía y empleo:
b) Demografía y salud:
c) Educación e infraestructura:
d) Medio ambiente y territorio:
El Análisis de Componentes Principales (ACP) se aplicó con el propósito de reducir la dimensionalidad de un conjunto de variables socioeconómicas, demográficas y ambientales de diversos países, con el fin de identificar patrones globales y diferencias estructurales posteriores a la pandemia.
Este procedimiento permite condensar la información contenida en múltiples variables correlacionadas en un número menor de componentes principales, manteniendo la mayor parte posible de la variabilidad total.
# ACP con estandarización
res.pca <- prcomp(X, scale. = TRUE)
# Autovalores, varianza y varianza acumulada usando factoextra
eig.val <- get_eigenvalue(res.pca)
# Resultados para individuos (PAÍSES)
res.ind <- get_pca_ind(res.pca)
# Resultados para variables
res.var <- get_pca_var(res.pca)
g_ind <- fviz_pca_ind(
res.pca,
col.ind = "cos2",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
label = "none", # sin texto fijo en el gráfico
repel = FALSE
) +
ggtitle("Individuals - PCA")
df_ind <- as.data.frame(get_pca_ind(res.pca)$coord)
df_ind$Pais <- rownames(df_ind)
g_ind <- g_ind +
geom_point(
data = df_ind,
aes(x = Dim.1, y = Dim.2, text = Pais),
alpha = 0, size = 2
)
plotly::ggplotly(
g_ind,
tooltip = "text"
) |>
layout(height = 650)
Cada punto representa un país proyectado en el plano definido por los dos primeros componentes principales:
Eje 1: 31.4% Gradiente de desarrollo humano y económico
Eje 2: 10.6% Estructura productiva y densidad poblacional
En el lado derecho del eje 1 se agrupan los países desarrollados (Alemania, Canadá, Japón, Australia, Suiza, etc.), caracterizados por PIB alto, esperanza de vida elevada y amplio acceso a servicios básicos.
Esto refleja sociedades con estructuras económicas consolidadas, baja mortalidad y alta urbanización.
En el lado izquierdo del eje 1, aparecen países africanos y de bajos ingresos (Chad, Níger, Mozambique, República Centroafricana), asociados a altas tasas de fertilidad, mortalidad infantil y menor acceso a electricidad, indicadores de menor desarrollo y mayor vulnerabilidad social.
El eje vertical (Dim2) diferencia economías agrarias o con alta densidad poblacional (como India, Bangladesh o Nigeria) respecto a economías más diversificadas o terciarizadas (como Estados Unidos o países europeos).
El color (\(\text{cos}^2\)) indica la calidad de representación: los tonos cálidos (naranja/rojo) señalan países bien representados en el plano, lo cual significa que su posición explica adecuadamente su comportamiento respecto a las dimensiones analizadas.
Este gráfico evidencia un gradiente global de desarrollo: de los países industrializados con altos niveles de bienestar (derecha) hacia los países más vulnerables y rurales (izquierda), reforzando las desigualdades estructurales postpandemia.
g_var <- fviz_pca_var(
res.pca,
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
axes = c(1, 3)
)
df_var <- as.data.frame(get_pca_var(res.pca)$coord)
df_var$Variable <- rownames(df_var)
g_var <- g_var +
geom_point(
data = df_var,
aes(x = Dim.1, y = Dim.3, text = Variable),
alpha = 0, size = 2
)
plotly::ggplotly(
g_var,
tooltip = "text"
) |>
layout(height = 650)
Las flechas representan las variables originales y muestran cómo se relacionan con los componentes principales.
En el lado derecho del eje 1, las variables PIB, esperanza de vida, acceso a electricidad y población urbana apuntan en la misma dirección y están estrechamente agrupadas.
Esto indica correlación positiva fuerte entre ellas y su asociación con países desarrollados.
En el lado izquierdo, las variables fertilidad, mortalidad infantil y fecundidad adolescente se oponen al grupo anterior.
Representan un perfil demográfico vulnerable: alta natalidad y mortalidad, menor acceso a servicios, y economías más precarias.
El eje 2 (Dim2) está más relacionado con densidad poblacional, tierras agrícolas y participación laboral, definiendo una dimensión estructural-productiva que distingue países agrícolas o con gran concentración de población.
La longitud de la flecha indica la fuerza de la relación con el eje: las más largas (PIB, esperanza de vida, fertilidad) son las variables que más contribuyen a explicar la variabilidad total.
El color (de azul a rojo) muestra la contribución al componente: las variables en tonos rojos/naranjas son las más influyentes en la construcción de las dimensiones.
g_bi <- fviz_pca_biplot(
res.pca,
repel = TRUE,
col.var = "#2E9FDF", # variables en azul
col.ind = "#696969", # países en gris
axes = c(1, 3),
label = "var"
)
df_ind <- as.data.frame(get_pca_ind(res.pca)$coord)
df_ind$Pais <- rownames(df_ind)
df_var <- as.data.frame(get_pca_var(res.pca)$coord)
df_var$Variable <- rownames(df_var)
g_bi <- g_bi +
geom_point(
data = df_ind,
aes(x = Dim.1, y = Dim.3, text = Pais),
alpha = 0, size = 2
) +
geom_point(
data = df_var,
aes(x = Dim.1, y = Dim.3, text = Variable),
alpha = 0, size = 2
)
plotly::ggplotly(
g_bi,
tooltip = "text"
) |>
layout(height = 650)
Este gráfico combina individuos (países) y variables, mostrando cómo se relacionan los países con los indicadores socioeconómicos.
Los países hacia la derecha están asociados con PIB alto, esperanza de vida elevada, urbanización y acceso a electricidad.
Representan naciones desarrolladas y consolidadas, con estructuras postpandemia más resilientes.
Los países hacia la izquierda, como Chad, Níger o la República Centroafricana, se alinean con variables como mortalidad infantil, fecundidad adolescente y fertilidad, reflejando déficits sociales y económicos persistentes.
Singapur, ubicado muy a la derecha, es un caso extremo de desarrollo económico y social, muy bien representado por las variables de bienestar.
El eje vertical (\(\text{Dim3 – 8.4\%}\)) introduce un matiz adicional relacionado con condiciones ambientales y demográficas, destacando variables como superficie forestal y mortalidad bruta, que diferencian países con amplios recursos naturales o territorios extensos.
Tras la pandemia, se mantiene una división clara entre países con alta resiliencia socioeconómica y aquellos con mayores desafíos estructurales.
# Tabla bonita con autovalores
DT::datatable(
round(eig.val, 3),
options = list(pageLength = 10, scrollX = TRUE),
caption = "Autovalores y proporción de varianza explicada por componente"
)
Según los autovalores, las primeras cinco dimensiones explican el 66.22 % de la varianza total de los datos, lo cual es suficiente para una interpretación robusta del fenómeno
g_eig <- fviz_eig(
res.pca,
addlabels = TRUE,
barfill = "#00AFBB",
barcolor = "#2c3e50",
linecolor = "#E74C3C"
) +
theme_minimal(base_size = 14) +
ggtitle("Interpretación de los componentes principales")
suppressWarnings(
plotly::ggplotly(g_eig)
)
El descenso pronunciado de los primeros autovalores refleja que los principales factores de cambio entre los países están concentrados en pocas dimensiones, posiblemente relacionadas con aspectos estructurales como la recuperación económica, los niveles de empleo, la inversión en salud y la desigualdad social.
cor_matrix <- cor(Paises_IDM, use = "pairwise.complete.obs")
DT::datatable(
round(cor_matrix, 2),
options = list(pageLength = 10, scrollX = TRUE),
caption = "Matriz de correlaciones entre variables"
)
La matriz de correlaciones evidencia la presencia de asociaciones estructurales consistentes entre las variables socioeconómicas, demográficas y ambientales analizadas. En términos generales, se observan dos conglomerados de relaciones que anticipan la organización del espacio factorial del ACP.
En primer lugar, se identifica un conjunto de variables tradicionalmente asociado a condiciones de mayor vulnerabilidad socioeconómica. Este grupo incluye la fertilidad, la fecundidad adolescente, la mortalidad infantil y la mortalidad bruta, las cuales muestran correlaciones positivas entre sí. Estas variables, a su vez, presentan correlaciones negativas con indicadores de bienestar y desarrollo, como la esperanza de vida, el PIB, la participación laboral, la población urbana y el acceso a electricidad. Este patrón sugiere la coexistencia de contextos demográficos más jóvenes, mayores tasas de mortalidad y niveles más bajos de infraestructura y desarrollo, característicos de países con menor resiliencia frente a shocks como la pandemia.
En contraste, las variables relacionadas con el desarrollo económico y social tales como el PIB, el acceso a electricidad, la esperanza de vida y la población urbana presentan correlaciones positivas entre sí, así como correlaciones negativas con los indicadores de vulnerabilidad demográfica mencionados previamente. De manera complementaria, variables vinculadas con aspectos territoriales o ambientales, como la superficie forestal y la tierra agrícola, muestran correlaciones menos intensas con el resto de los indicadores, lo cual sugiere un papel más marginal en la explicación de los patrones socioeconómicos y demográficos generales.
Para la segmentación de los países, se aplicó el método de clusterización jerárquica utilizando el método de Ward, basado en los factores obtenidos a partir del Análisis de Componentes Principales (ACP). Este método permite agrupar países según sus características socioeconómicas y demográficas de manera que los países dentro de un mismo grupo presenten similitudes, mientras que los grupos entre sí sean diferentes.
El método de Ward fue elegido por su capacidad para minimizar la varianza dentro de los grupos, lo que facilita una segmentación más homogénea. En el dendrograma obtenido, se observa cómo los países se agrupan progresivamente según sus similitudes en los factores principales derivados del ACP. Las distancias representadas en el eje vertical indican el grado de disimilitud entre los países o grupos. La estructura jerárquica evidencia que algunos países comparten condiciones socioeconómicas más cercanas, como el nivel de desarrollo humano, el acceso a electricidad, el PIB per cápita o la tasa de mortalidad infantil.
# Factores del ACP
factores <- get_pca_ind(res.pca)$coord
# Distancias y Ward
dist_paises <- dist(factores)
modelo_ward <- hclust(dist_paises, method = "ward.D2")
# Dendrograma base VERTICAL, blanco y negro
g_dend_bw <- fviz_dend(
modelo_ward,
k = 1, # un solo color
show_labels = FALSE, # sin nombres fijos
rect = FALSE, # sin rectángulos
palette = "grey20",
main = "Dendrograma - Método de Ward (Países según factores ACP)",
ylab = "Distancia"
)
dd <- ggdendro::dendro_data(modelo_ward, type = "rectangle")
labels_df <- data.frame(
x = dd$labels$x,
y = dd$labels$y,
Pais = dd$labels$label
)
g_dend_bw <- g_dend_bw +
geom_point(
data = labels_df,
aes(x = x, y = y, text = Pais),
alpha = 0, size = 2
)
suppressWarnings(
ggplotly(
g_dend_bw,
tooltip = "text"
) %>%
layout(height = 500)
)
Para determinar el número óptimo de clusters, se utilizó el método de la Silhouette. Este gráfico muestra el promedio de la anchura de la silueta en función del número de clusters (k). El punto máximo, que corresponde a k = 2, indica la mejor separación entre grupos en términos de coherencia interna. Sin embargo, al analizar los resultados y la distribución de los países, se identificó una estructura más rica con cinco clusters, lo que permite captar mejor la diversidad de condiciones económicas y sociales entre los países. Por tanto, el análisis posterior se realizó considerando cinco clusters finales.
grafico_sil <- fviz_nbclust(factores, FUN = hcut, method = "silhouette") +
labs(title = "Número óptimo de clusters (Método Silhouette)",
subtitle = "Basado en los factores del ACP")
ggplotly(grafico_sil)
A partir de los resultados de las medias por variables, se identificaron cinco grupos de países, cada uno con características diferenciadas:
corte <- 17
grupos <- cutree(modelo_ward, h = corte)
k <- length(unique(grupos))
#colorcitos
paleta_clusters <- c(
"#FF0000", # rojo
"#FFFF00", # amarillo
"#00FF00", # verde
"#00BFFF", # azul claro / cyan
"#DA70D6" # fucsia/purple
)
# Dendrograma coloreado
g_dend_col <- fviz_dend(
modelo_ward,
k = k,
palette = paleta_clusters,
show_labels = FALSE,
rect = TRUE,
rect_border = "black",
rect_fill = TRUE,
main = "Dendrograma coloreado por clústeres (Ward)",
ylab = "Distancia"
)
dd <- ggdendro::dendro_data(modelo_ward, type = "rectangle")
labels_df <- data.frame(
x = dd$labels$x,
y = dd$labels$y,
Pais = dd$labels$label,
Cluster = as.factor(grupos[dd$labels$label])
)
g_dend_col <- g_dend_col +
geom_point(
data = labels_df,
aes(
x = x,
y = y,
text = paste0(Pais, " (Cluster ", Cluster, ")")
),
alpha = 0,
size = 2
)
suppressWarnings(
ggplotly(
g_dend_col,
tooltip = "text"
) %>%
layout(height = 500)
)
En conjunto, el análisis refleja que los países con mayores niveles de desarrollo presentan menor crecimiento poblacional, mejor infraestructura y mayor estabilidad económica, mientras que aquellos con menor desarrollo enfrentan desafíos en acceso a servicios, alta mortalidad y dependencia agrícola. Esto sugiere trayectorias diferenciadas de recuperación y desarrollo tras la pandemia.
# Crear grupos según el corte del dendrograma
grupos <- cutree(modelo_ward, h = corte)
# Gráfico estático con fviz_cluster
g_clust <- fviz_cluster(
list(data = factores, cluster = grupos),
geom = "point",
ellipse.type = "norm",
palette = "jco",
ggtheme = theme_minimal(),
main = "Segmentación de países según factores del ACP (Método de Ward)"
)
# Versión interactiva
suppressWarnings(
plotly::ggplotly(g_clust) %>%
layout(height = 550)
)
El gráfico muestra la distribución de los países en el plano definido por las dos primeras dimensiones del Análisis de Componentes Principales (ACP), donde cada punto representa un país y los colores o símbolos indican el clúster al que pertenece, según la agrupación jerárquica por el método de Ward.
Cada figura geométrica y color identifica un grupo con características socioeconómicas similares:
🔵 Círculos azules (Clúster 1): países con bajo nivel de desarrollo, alta fertilidad, mortalidad infantil elevada y bajo acceso a servicios. Se agrupan en la zona izquierda del gráfico, donde las dimensiones del ACP reflejan condiciones estructurales más rezagadas.
◻ Triángulos amarillos (Clúster 2): economías emergentes o en transición, con niveles intermedios de ingreso, urbanización creciente y mejoras en educación y salud. Ocupan una posición intermedia, próxima a los clústeres más desarrollados, lo que refleja su proceso de modernización gradual.
◻ Cruces rojas (Clúster 3): países altamente desarrollados y de alta renta, con altos niveles de bienestar, PIB per cápita elevado y baja mortalidad. Se agrupan en una región compacta, lo que indica gran similitud entre ellos.
■ Cuadrados grises (Clúster 4): economías europeas industrializadas y consolidadas, con un perfil socioeconómico equilibrado y alto capital humano. Se superponen parcialmente con el clúster 3, mostrando afinidades en desarrollo humano, aunque con algunas diferencias estructurales.
➕ Cruces negras (Clúster 5): corresponden a China e India, los únicos dos países de este grupo.
Su posición alejada del resto y aislada dentro de su propia elipse indica que, aunque comparten algunos rasgos con los países emergentes (clúster 2) y desarrollados (clúster 3), su escala poblacional y económica excepcional los hace atípicos dentro del conjunto global.
Cada elipse coloreada representa el espacio de variación de los países dentro de su clúster:
En cambio, la elipse del clúster 5 (China e India) aparece aislada y pequeña, con solo dos cruces, lo que significa que:
El Análisis de Componentes Principales permitió sintetizar la información de múltiples indicadores en cinco componentes que explican más del 66 % de la variabilidad total. Estos componentes representan dimensiones clave:
En conjunto, los resultados evidencian que, aunque algunos países lograron sostener o mejorar sus niveles de desarrollo tras la pandemia, persisten brechas estructurales significativas entre las naciones industrializadas y aquellas con economías menos diversificadas. El ACP permitió identificar estas diferencias de forma clara y cuantificable, contribuyendo a comprender mejor los efectos socioeconómicos y estructurales globales del periodo postpandemia.
El principal desafío metodológico radicó en la decisión interpretativa de modificar el resultado estadístico sugerido por el método de Silhouette (k = 2) para adoptar una segmentación más detallada (k = 5). Esta decisión se encuentra plenamente justificada, ya que permitió identificar subcategorías esenciales dentro de las trayectorias de desarrollo, especialmente la distinción entre las economías europeas consolidadas y las economías de alta renta o rentistas, que en un modelo con solo dos grupos habrían quedado fusionadas. De este modo, la elección de cinco clusters no solo enriquece la interpretación cualitativa del análisis, sino que también aumenta su relevancia y aplicabilidad para el estudio comparativo de las condiciones socioeconómicas globales. Los resultados del modelo evidencian trayectorias de desarrollo claramente diferenciadas:
En conjunto, el modelo demuestra que los países con mayor desarrollo tienden a presentar mejor infraestructura, mayor estabilidad económica y mejores indicadores sociales, mientras que aquellos con menor desarrollo enfrentan desafíos estructurales y limitaciones en su base productiva. En conclusión, el modelo propuesto logra representar de forma coherente y diferenciada las diversas etapas de desarrollo y estructura económica de los países analizados.
1. Identificación de grupos de países con necesidades similares: Los clústers nos permiten agrupar países que enfrentan problemáticas en común (desempleo, baja esperanza de vida, deforestación, baja productividad, ect). Esto facilita:
-Establecer políticas en cada región.
-Orientar recursos económicos a países desfavorecidos.
-Priorizar ayudas en sectores (países) en estado crítico.
2. Monitorear el avance en cuanto a los objetivos de desarrollo sostenible (ODS) en los países: el ACP nos permite observar el avance global de manera más clara, ademmás, las 17 variables elegidas en torno a la problemática de la postpandemia están muy relacionadas con algunas de las metas planteadas en los objetivos de desarrollo sostenible, como lo son:
-ODS 1 (fin de la pobreza).
-ODS 3 (salud y bienestar).
-ODS 4 (educación de calidad).