Introducción

La elección de este tema surge del interés por explorar cómo el aprendizaje no supervisado (ANS) puede contribuir al análisis del desarrollo de los países, una temática clave en los estudios económicos y sociales. En un contexto donde la disponibilidad de datos es cada vez mayor y más compleja, se vuelve fundamental utilizar herramientas que permitan identificar patrones o agrupamientos sin necesidad de contar con información previamente etiquetada, lo que plantea un enfoque distinto al aprendizaje supervisado.

Este informe busca aplicar técnicas de ANS como el análisis de conglomerados (clustering) —mediante métodos como k-medias o jerárquico— y el análisis de componentes principales (ACP), con el fin de encontrar similitudes entre países a partir de múltiples indicadores del Banco Mundial. Aunque el Índice de Desarrollo Humano (IDH) no será utilizado como variable dependiente, cumplirá un rol central como referencia para interpretar y validar los grupos formados. De esta manera, se pretende generar clasificaciones objetivas basadas en características socioeconómicas reales, permitiendo una visión más exploratoria del desarrollo humano y resaltando el valor del ANS en contextos donde no se dispone de categorías predefinidas.


Metodología

Para el desarrollo de este análisis se emplearon dos técnicas principales de aprendizaje no supervisado: el Análisis de Componentes Principales (ACP) y la clusterización mediante los métodos de k-medias y Ward. El ACP es una herramienta estadística que permite reducir la cantidad de variables sin perder información relevante, lo cual facilita el análisis y la visualización de datos complejos. Por su parte, la clusterización busca agrupar observaciones similares en diferentes grupos o clústeres. En este caso, se aplicaron tanto el método de k-medias, que organiza los datos según su cercanía a centros previamente definidos, como el método de Ward, una técnica jerárquica que forma grupos minimizando la variación interna de cada uno.


Descripción de las variables

IDH (Índice de Desarrollo Humano): Indica el nivel de desarrollo de un país considerando salud, educación e ingresos. Se usará como referencia para interpretar los grupos formados.

Acceso a electricidad (% población): Muestra qué porcentaje de la población tiene acceso a la red eléctrica.

Gasto en salud (% del PIB): Representa el porcentaje del producto interno bruto que el país invierte en el sector salud.

Tasa de empleo (% de la población): Indica qué parte de la población en edad de trabajar está empleada.

Inversión en educación (% del PIB): Mide cuánto invierte el país en educación en proporción a su economía.

Tasa de importaciones (% del PIB): Muestra qué tan dependiente es el país de productos del exterior.

Uso de internet (% población): Indica cuántas personas usan internet dentro del país.

Acceso a saneamiento (% población): Muestra el acceso de la población a servicios básicos de saneamiento.

Uso de energía renovable (% total energía): Indica qué parte de la energía utilizada proviene de fuentes renovables.

Educación secundaria (% población): Representa el porcentaje de la población que ha completado al menos la secundaria.

Educación terciaria (% población): Indica cuántas personas han accedido a educación superior o universitaria.

Tasa de desempleo (% fuerza laboral): Muestra el porcentaje de personas en edad de trabajar que están sin empleo.

Población urbana (% total): Indica qué proporción de la población vive en zonas urbanas.


Descripción de modelo utilizado

Primero, se estandarizaron todas las variables para asegurar que tuvieran el mismo peso en el análisis. Luego, se aplicó el Análisis de Componentes Principales (ACP) para reducir la dimensión del conjunto de datos y facilitar la visualización. A continuación, se utilizaron los métodos de clusterización k-medias y Ward para identificar agrupamientos naturales entre países, basándose en los indicadores seleccionados. El Índice de Desarrollo Humano (IDH) se usó como variable guía para interpretar los resultados obtenidos y validar la coherencia de los grupos formados.

library(readxl)
library(tibble)
library(modeest) 
library(dplyr)
library(tidyr)
library(ggplot2)
library(plotly)
library(factoextra)
library(tidyverse)
library(FactoClass)
library(dendextend)
library(reshape2)
library(ade4)
library(kableExtra)
library(knitr)
base3 <- read_excel("base3.xlsx")
View(base3)

variables <- c("IDH", "Acceso_electricidad", "Gasto_salud", "Tasa_empleo", "Inversion_educacion", 
               "Tasa_importaciones", "Uso_internet", "Uso_saneamiento", "Uso_energia_renovable", 
               "Educacion_secundaria", "Educacion_terciaria", "Tasa_desempleo", "Poblacion_urbana")


Resultados descriptivos

Tabla de estadísticas descriptivas numéricas

A continuación, se presentan las estadísticas descriptivas de las variables numéricas y categóricas del estudio. Para las variables numéricas se calcularon medidas de tendencia central y dispersión (media, mediana, moda y desviación estándar), lo cual permite entender el comportamiento general de los datos.

Tabla de estadísticas descriptivas por variable
Estadísticos
Variable Media Mediana Moda Desviacion
IDH 79.36 81.50 63.60 13.96
Acceso_electricidad 92.97 100.00 100.00 19.21
Gasto_salud 6.86 6.69 2.32 2.73
Tasa_empleo 57.84 58.37 32.02 8.47
Inversion_educacion 4.43 4.59 0.99 1.34
Tasa_importaciones 48.38 43.06 14.24 26.02
Uso_internet 67.23 74.70 64.80 24.57
Uso_saneamiento 87.04 97.53 100.00 20.70
Uso_energia_renovable 28.04 22.30 0.00 23.53
Educacion_secundaria 96.14 100.84 30.34 26.06
Educacion_terciaria 55.00 57.39 4.70 29.00
Tasa_desempleo 6.33 4.87 4.34 4.60
Poblacion_urbana 65.98 68.14 13.03 20.14


Gráfico de barras: Media por variable

Este gráfico permite visualizar y comparar la media de cada variable, destacando aquellas con mayores niveles de desarrollo promedio.

Las variables con mayores medias son Educación_secundaria, Acceso_electricidad y Uso_saneamiento, todas superiores al 85%. Esto sugiere un desarrollo avanzado y homogéneo en estos servicios. Por el contrario, Inversión_educación, Tasa_desempleo y Gasto_salud tienen promedios bajos, mostrando limitaciones en estos aspectos.


Boxplot: Distribución de valores por variable

Este gráfico muestra la distribución completa de cada variable, incluyendo outliers y rangos intercuartílicos.

Educación_terciaria, Gasto_salud e Inversión_educación muestran gran dispersión y varios outliers, lo que sugiere diferencias notables entre países. En cambio, Acceso_electricidad y Uso_saneamiento presentan distribuciones compactas y homogéneas.


Gráfico de líneas: Media, mediana y moda

Este gráfico compara las tres medidas de tendencia central para cada variable, ayudando a identificar simetrías o asimetrías.

Se observa que en muchas variables la media y la mediana coinciden, lo que indica simetría. Sin embargo, la moda se aleja en casos como Tasa_empleo o Educación_terciaria, lo que señala que hay valores repetidos que no coinciden con el promedio.


Resultados del modelo

Analisis de Componentes Principales(ACP)

Este gráfico de Scree Plot nos muestra cuánta varianza explica cada componente principal en nuestro análisis. Observamos que los primeros componentes (Dim.1, Dim.2) capturan la mayor parte de la información, mientras que los siguientes aportan cada vez menos variabilidad. En nuestro caso, nos enfocamos en los primeros 2 componentes que concentran la mayor varianza, considerando el resto como información menos significativa para nuestros objetivos.


fviz_pca_ind(res.pca,
             col.ind = "cos2", # Color by the quality of representation
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE
)

La gráfica muestra a los individuos proyectados sobre las dos primeras dimensiones del PCA, que explican el 61.4 % de la variabilidad total. Cada punto representa un individuo y el color indica qué tan bien está representado en el plano, siendo los tonos naranjas los que tienen mayor calidad de representación. Se observa que algunos individuos, como el 16 o el 52, están alejados del centro, lo que sugiere que tienen perfiles diferentes al promedio. Por el contrario, quienes están más cerca del centro tienen características más comunes.


fviz_pca_var(res.pca,
             col.var = "contrib", # Color by contributions to the PC
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             axes = c(1,2)# Avoid text overlapping
)

El gráfico muestra cómo se relacionan las variables originales con las dos primeras dimensiones del PCA. Las flechas indican la dirección e intensidad de cada variable, y su color representa el nivel de contribución, siendo el naranja más alto. Variables como “Tasa de empleo” e “Inversión en educación” tienen una gran influencia en la construcción de estas dimensiones. La cercanía entre flechas señala relación positiva entre variables, mientras que direcciones opuestas indican relación negativa.


fviz_pca_biplot(res.pca, repel = TRUE,
                col.var = "#2E9FDF", # Variables color
                col.ind = "#696969",
                axes=c(1,2)# Individuals color
)

Este gráfico es un biplot de un Análisis de Componentes Principales (PCA), el cual muestra cómo se agrupan los países según sus características sociales y económicas. Las flechas azules representan variables como empleo, educación o acceso a servicios. Los países ubicados en la dirección de una flecha tienden a tener altos valores en esa variable. Por ejemplo, “Tasa_empleo” y “Energía_renovable” apuntan hacia la derecha, lo que significa que quienes están ubicados en esa zona (como los puntos 16, 52, 60) tienen altos valores en esas variables. En cambio, hacia la izquierda se agrupan variables como “Acceso_electricidad” o “Uso_internet”, indicando una asociación distinta con otros grupos de países.


eig.val <- get_eigenvalue(res.pca)
eig.val

Los eigenvalues representan la importancia de cada componente en el PCA. En nuestros resultados la Dim.1 (49.89% varianza) y Dim.2 (13.95%) explican juntas el 63.84% de la información, por lo que elegimos estas dos dimensiones como las más relevantes. Los componentes posteriores aportan menos del 12% cada uno, confirmando que podemos ignorarlos sin perder información clave.


contrib_tbl <- as_tibble(res.var$contrib[, 1:2], rownames = "Variable")

kable(contrib_tbl, digits = 2, caption = "Contribución de las variables a los componentes principales")
Contribución de las variables a los componentes principales
Variable Dim.1 Dim.2
IDH 14.23 0.72
Acceso_electricidad 10.38 2.68
Gasto_salud 4.86 2.23
Tasa_empleo 0.88 39.82
Inversion_educacion 2.22 14.68
Tasa_importaciones 0.98 0.26
Uso_internet 13.62 1.32
Uso_saneamiento 12.63 0.41
Uso_energia_renovable 6.82 5.72
Educacion_secundaria 12.21 0.34
Educacion_terciaria 10.36 0.11
Tasa_desempleo 0.68 30.00
Poblacion_urbana 10.13 1.70

La tabla muestra cuánto contribuye cada variable a las dos primeras dimensiones del análisis PCA. Dim.1 explica la mayor parte de la variabilidad (46.4%) y Dim.2 (15%). Por ejemplo, “Uso_internet” y “Uso_saneamiento” aportan bastante a Dim.1, lo que indica que son clave para explicar las diferencias entre países en esa dirección. En cambio, “Tasa_empleo” y “Tasa_desempleo” tienen mucha influencia en Dim.2, así que son importantes para separar países en ese eje.


colSums( res.var$contrib[,1:2] )
## Dim.1 Dim.2 
##   100   100

La suma de las contribuciones de las variables a las dos primeras dimensiones es del 100 % en cada una, lo que indica que todas las variables están bien representadas y que estas dos dimensiones capturan por completo la información más relevante del análisis. Por tanto, es válido centrarse solo en Dim.1 y Dim.2 para interpretar los resultados del PCA.


ind_contrib_tbl <- as_tibble(res.ind$contrib[, 1:2], rownames = "Individuo")

kable(ind_contrib_tbl, digits = 2, caption = "Contribución de los individuos a los componentes principales")
Contribución de los individuos a los componentes principales
Individuo Dim.1 Dim.2
1 0.00 1.54
2 0.07 4.96
3 1.46 0.68
4 0.43 0.33
5 0.01 0.26
6 0.21 0.50
7 2.51 1.27
8 0.30 0.20
9 2.24 0.25
10 0.29 0.04
11 0.94 0.52
12 0.00 5.42
13 0.08 0.00
14 0.12 0.08
15 8.00 0.16
16 8.77 5.15
17 4.28 0.30
18 0.75 0.49
19 0.63 0.14
20 0.29 0.10
21 0.11 0.93
22 0.44 0.00
23 0.30 0.21
24 1.35 1.74
25 0.00 0.02
26 0.01 0.24
27 0.24 0.06
28 0.39 0.30
29 0.01 0.03
30 1.35 0.45
31 0.70 0.08
32 0.03 0.95
33 0.64 0.48
34 2.89 0.03
35 1.04 5.26
36 1.69 0.01
37 6.66 0.42
38 0.17 0.02
39 0.52 7.87
40 1.45 1.72
41 0.65 0.48
42 0.73 0.00
43 0.49 0.75
44 0.33 1.56
45 0.54 0.12
46 0.10 9.99
47 0.00 0.00
48 0.09 0.12
49 0.24 0.00
50 0.14 0.00
51 0.46 0.00
52 8.96 3.29
53 0.01 0.06
54 6.38 0.75
55 0.73 0.27
56 0.00 0.00
57 0.09 0.97
58 0.04 0.18
59 0.04 2.30
60 6.65 3.76
61 1.21 1.19
62 0.65 1.52
63 0.84 3.43
64 0.11 0.72
65 3.46 2.10
66 0.60 0.03
67 0.21 0.00
68 0.29 0.00
69 0.01 0.53
70 0.17 0.01
71 5.20 0.70
72 0.11 2.22
73 0.89 0.25
74 0.07 0.15
75 0.40 0.04
76 0.00 7.25
77 0.96 1.60
78 1.00 1.84
79 1.18 2.33
80 0.61 1.08
81 0.05 0.23
82 0.45 1.62
83 0.15 0.39
84 0.78 0.47
85 1.14 0.78
86 0.22 0.14
87 0.08 0.42

En esta tabla se observan las contribuciones de los individuos a las dos primeras dimensiones del análisis. Los valores más altos indican cuáles individuos influyen más en la construcción de cada dimensión. Por ejemplo, el individuo 16 tiene una contribución de 8.77 en la Dim.1 y el individuo 12 con un valor de 5.42 en la Dim.2 indican puntos influyentes a la estructura de cada dimensión. La mayoría de contribuciones son bajas (<1), lo que sugiere que solo ciertas observaciones son clave para interpretar los componentes.


ind_test_tbl <- as_tibble(ind.test.coord[, 1:2], rownames = "Individuo")
kable(ind_test_tbl, digits = 2, caption = "Coordenadas de los individuos test en los componentes 1 y 2")
Coordenadas de los individuos test en los componentes 1 y 2
Individuo PC1 PC2
1 -2.76 -1.66
2 0.01 0.20
3 0.20 -0.61
4 1.15 0.31

En esta parte del código se selecciona una porción de la base de datos original con el fin de utilizarla como conjunto de pruebas para la predicción. En esta tabla observamos las coordenadas de los individuos proyectados. Valores como -2.76 (PC1, obs.1) indican posiciones extremas respecto al componente principal 1, mientras que valores cercanos a cero sugieren alineación cercana al centroide.


p <- fviz_pca_ind(res.pca, repel = TRUE)
fviz_add(p, ind.test.coord, color ="blue")

Este gráfico muestra cómo se parecen o se diferencian los países entre sí según sus características. Los individuos en azul están cerca unos de otros, lo que indica que tienen perfiles similares. Todos están hacia la derecha del eje Dim1, lo que sugiere que destacan en variables como educación o uso de internet.


clust_tbl <- as_tibble(res_hcpc$data.clust$clust, rownames = "Individuo", .name_repair = "minimal")
names(clust_tbl)[2] <- "Cluster"
kable(clust_tbl, caption = "Asignación de individuos a clústeres (HCPC)")
Asignación de individuos a clústeres (HCPC)
Individuo Cluster
1 3
2 3
3 4
4 4
5 2
6 4
7 2
8 4
9 4
10 2
11 2
12 3
13 3
14 4
15 1
16 1
17 1
18 4
19 4
20 4
21 3
22 4
23 4
24 4
25 2
26 2
27 2
28 4
29 2
30 4
31 4
32 3
33 4
34 2
35 3
36 2
37 1
38 4
39 4
40 2
41 2
42 4
43 4
44 3
45 4
46 3
47 2
48 2
49 4
50 4
51 4
52 1
53 2
54 1
55 4
56 2
57 2
58 2
59 3
60 1
61 4
62 4
63 4
64 4
65 2
66 2
67 4
68 4
69 2
70 4
71 1
72 3
73 4
74 4
75 4
76 3
77 3
78 2
79 4
80 4
81 2
82 3
83 3
84 4
85 4
86 4
87 2
plot(res_hcpc, choice = "tree")

Este gráfico es un dendrograma, que muestra cómo se agrupan los países (u observaciones) según su similitud. Las ramas que están más cerca indican países con características parecidas. En este caso, se formaron 4 grupos (marcados con colores), lo que significa que los datos se pueden clasificar en cuatro conjuntos principales con perfiles similares.


library(FactoMineR)
library(factoextra)

fviz_pca_biplot(res_acp, repel = TRUE, col.var = "steelblue", col.ind = "black")

En este biplot, observamos la proyección de variables activas (en azul) y observaciones (en negro) sobre los dos primeros factores principales. Las variables como Tasa de empleo, Acceso electricidad y Energía renovable se encuentran más dispersas, indicando mayor contribución a la diferenciación de los grupos. En contraste, muchas observaciones se agrupan cercanas al centro, lo cual sugiere similitudes entre ellas respecto a las variables consideradas.


res_acp <- PCA(base_num, graph = FALSE)

# Biplot con países (individuos) y variables
fviz_pca_biplot(res_acp, 
                repel = TRUE,             # para que no se encimen los nombres
                col.var = "steelblue",    # color de las flechas (variables)
                col.ind = "black",        # color de los países
                label = "all")  

En este gráfico se observa cómo se relacionan los países (puntos numerados) con las variables consideradas (flechas azules). Los países cercanos a una flecha tienden a presentar valores altos en esa variable, como ocurre hacia la derecha con tasa de empleo y acceso a electricidad, o hacia abajo con la tasa de desempleo. Muchas flechas se agrupan en el centro, indicando que comparten patrones similares entre países. Asimismo, la mayoría de los países se ubican cerca del origen, lo cual sugiere perfiles relativamente parecidos, mientras que los más alejados reflejan comportamientos más extremos o diferenciados en algunas variables.


Analisis de Cluster Kmeans

La gráfica del método del codo muestra que la disminución del error es fuerte hasta llegar a 4 clústeres. A partir de ahí, la mejora se vuelve más pequeña. Por eso, el punto donde se forma el “codo” está en k = 4, lo que indica que ese sería un buen número de grupos para segmentar los datos sin hacer divisiones de más.


La gráfica del método de la silueta muestra que el valor más alto se alcanza cuando k = 2, lo que indica que con 2 clústeres los grupos quedan mejor definidos y separados. A partir de ahí, la calidad de los grupos baja, por eso este método sugiere que 2 es el número más adecuado de clústeres para estos datos.


set.seed(123) 
modelo_kmeans <- kmeans(base_scaled, centers = 4)

base_clusterizada <- base_kmeans %>%
  mutate(cluster = modelo_kmeans$cluster)

res.pca <- prcomp(base_scaled)
fviz_cluster(modelo_kmeans, data = base_scaled, 
             ellipse.type = "norm", 
             palette = "jco", 
             ggtheme = theme_minimal()) +
  labs(title = "Visualización de los clusters por k-means")

Este gráfico muestra cómo quedaron agrupados los países después de aplicar el método de kmeans con 4 clústeres. Cada punto representa un país, y los colores indican a qué grupo pertenece. Los elipses muestran el espacio que ocupa cada clúster. Se observa que los grupos están bien separados, especialmente el clúster rojo, que está más alejado del resto, lo que sugiere que sus países tienen características muy distintas. Los clústeres azul y amarillo están más cerca, lo que puede indicar que comparten algunas similitudes. En general, la visualización respalda que la división en 4 clústeres tiene sentido según las diferencias en los datos.


base_clusterizada %>%
  group_by(cluster) %>%
  summarise(across(everything(), mean, .names = "media_{.col}"))
data_long <- melt(base_clusterizada, id = "cluster")

ggplot(data_long, aes(x = variable, y = value, fill = factor(cluster))) +
  geom_boxplot() +
  labs(title = "Distribución de variables por cluster", fill = "Cluster") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Este gráfico muestra cómo varían las variables en cada uno de los 4 clústeres. El cluster 2 resalta por tener altos niveles en educación, acceso a servicios y uso de internet. El cluster 4 tiene los valores más bajos en la mayoría de indicadores, lo que sugiere menor desarrollo. El cluster 3 se distingue por un mayor uso de energías renovables, y el cluster 1 presenta valores más intermedios. La comparación permite ver claramente las diferencias entre los grupos.


ggplot(data_long, aes(x = variable, y = value, color = factor(cluster))) +
  geom_boxplot() +
  labs(title = "Boxplot comparativo entre clusters", color = "Cluster") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Este gráfico compara las distribuciones de cada variable según el clúster. Se puede ver que el cluster 2 se destaca en variables como educación secundaria, internet y acceso a electricidad. El cluster 4 tiene valores más bajos en la mayoría de indicadores. El cluster 3 resalta en uso de energías renovables, y el cluster 1 se mantiene más intermedio. La visualización permite ver fácilmente en qué se diferencia cada grupo.


Resultado ACP

library(ade4)

Grupo <- as.factor(base_clusterizada$cluster)

s.class(res_acp$ind$coord,
        fac = Grupo,
        sub = "Componentes 1 y 2",
        possub = "bottomright",
        xax = 1,
        yax = 2,
        col = c(1, 2, 3, 4))

Este gráfico muestra los resultados de un análisis de clústeres. Cada color representa un grupo de países con características similares, y los círculos indican la dispersión de cada grupo. Por ejemplo, el grupo azul (4) está más separado de los demás, lo que sugiere que sus países son distintos en varios aspectos. En cambio, los grupos rojo, verde y negro están más cerca entre sí, indicando que comparten más similitudes.


library(tibble)
library(dplyr)

# Extraer los grupos
quanti_list <- res_hcpc$desc.var$quanti

# Convertir cada uno a tibble y agregar columna de grupo
quanti_tbl <- bind_rows(
  lapply(names(quanti_list), function(grupo) {
    as_tibble(quanti_list[[grupo]]) %>%
      mutate(Grupo = grupo,
             Variable = rownames(quanti_list[[grupo]])) %>%
      relocate(Grupo, Variable)
  })
)

library(knitr)
kable(quanti_tbl, digits = 2, caption = "Variables cuantitativas descriptivas por grupo (HCPC)")
Variables cuantitativas descriptivas por grupo (HCPC)
Grupo Variable v.test Mean in category Overall mean sd in category Overall sd p.value
1 Uso_energia_renovable 6.47 79.31 28.04 4.34 23.40 0.00
1 Tasa_empleo 3.01 66.44 57.84 11.74 8.43 0.00
1 Poblacion_urbana -4.79 33.46 65.98 12.89 20.03 0.00
1 Educacion_terciaria -4.89 7.18 55.00 2.88 28.83 0.00
1 Uso_internet -6.26 15.41 67.23 8.31 24.43 0.00
1 Educacion_secundaria -6.42 39.78 96.14 5.25 25.91 0.00
1 IDH -6.75 47.60 79.36 5.23 13.88 0.00
1 Uso_saneamiento -7.21 36.77 87.04 16.45 20.58 0.00
1 Acceso_electricidad -8.81 35.95 92.97 16.53 19.10 0.00
2 Educacion_secundaria -2.37 85.43 96.14 16.84 25.91 0.02
2 Tasa_desempleo -2.78 4.11 6.33 1.63 4.57 0.01
2 Inversion_educacion -2.81 3.77 4.43 1.30 1.34 0.00
2 IDH -3.12 71.80 79.36 7.22 13.88 0.00
2 Uso_internet -3.56 52.03 67.23 17.93 24.43 0.00
2 Educacion_terciaria -3.73 36.22 55.00 18.59 28.83 0.00
2 Poblacion_urbana -3.78 52.75 65.98 15.21 20.03 0.00
2 Gasto_salud -5.18 4.40 6.86 1.58 2.72 0.00
3 Tasa_desempleo 7.41 14.34 6.33 4.94 4.57 0.00
3 Tasa_empleo -5.68 46.53 57.84 6.24 8.43 0.00
4 Uso_internet 6.51 85.83 67.23 7.30 24.43 0.00
4 IDH 6.51 89.92 79.36 4.48 13.88 0.00
4 Poblacion_urbana 5.80 79.57 65.98 12.07 20.03 0.00
4 Educacion_secundaria 5.45 112.64 96.14 16.06 25.91 0.00
4 Educacion_terciaria 4.89 71.47 55.00 16.14 28.83 0.00
4 Gasto_salud 4.71 8.35 6.86 2.55 2.72 0.00
4 Uso_saneamiento 4.53 97.94 87.04 3.27 20.58 0.00
4 Inversion_educacion 3.93 5.04 4.43 1.22 1.34 0.00
4 Acceso_electricidad 3.12 99.94 92.97 0.23 19.10 0.00
4 Tasa_importaciones 2.86 57.03 48.38 32.49 25.87 0.00
4 Uso_energia_renovable -2.26 21.86 28.04 18.00 23.40 0.02
4 Tasa_desempleo -2.28 5.11 6.33 1.91 4.57 0.02

El análisis identificó cuatro clases de países con perfiles contrastantes. La Clase 1 agrupa países con alto uso de energías renovables y buena tasa de empleo, pero con bajos niveles en educación, servicios básicos y conectividad. La Clase 2 presenta condiciones más limitadas en aspectos educativos, de salud y acceso a internet, lo que sugiere un desarrollo intermedio. La Clase 3 se asocia principalmente con problemas laborales, reflejados en una alta tasa de desempleo y baja de empleo. Finalmente, la Clase 4 representa países con mayor desarrollo, destacando en educación, salud, urbanización y conectividad, aunque con menor enfoque ambiental.

Los Test.Value destacan las desviaciones más significativas respecto a la media global, revelando contrastes estructurales entre grupos.


Análisis de Clúster Jerárquico (Método de Ward)

El análisis jerárquico permite identificar grupos de países con características similares a partir de indicadores sociales y económicos. A continuación, se describe paso a paso cómo se aplicó este método.


Dendrograma general

Este gráfico muestra la jerarquía de similitud entre observaciones. Cuanto más abajo se unan dos ramas, más parecidas son las observaciones correspondientes.

Este dendrograma permite visualizar cómo se agrupan los países en función de su similitud. Cuanto más alto es el punto de unión entre ramas, mayor es la diferencia entre los grupos que se están formando.


Corte por altura específica

Este gráfico muestra cómo al cortar el dendrograma a una altura de 150 se identifican varios grupos. Es útil cuando se quiere analizar agrupaciones sin definir un número fijo de clusters.

Con un corte a h = 150 se obtienen múltiples grupos, permitiendo observar divisiones claras. Sin embargo, esta decisión es subjetiva, ya que depende de la elección visual de la altura de corte.


Corte por número de clusters específicos

Este enfoque permite dividir los datos en un número preestablecido de grupos, en este caso 6, para facilitar comparaciones o análisis posteriores.

La segmentación en 6 grupos permite clasificar observaciones en subconjuntos más manejables, aunque la elección del número de clusters puede no reflejar necesariamente la mejor estructura natural de los datos.


Determinación del número óptimo de clusters (Silhouette)

El método silhouette no es un método de agrupación en sí, sino una herramienta que permite evaluar la calidad del clustering. Aquí se utiliza para identificar el número óptimo de clusters basado en la cohesión interna y separación entre grupos.

El gráfico indica que el valor óptimo de clusters es 2, ya que es donde se maximiza el índice silhouette promedio. Esto sugiere que dividir en dos grupos ofrece la mejor separación entre observaciones.


Conclusiones

Jerárquico

Al aplicar el método jerárquico (Ward) para clasificar los países según sus variables socioeconómicas, se presentan dos opciones comunes para definir los grupos: corte por altura o definición de un número específico de clusters.

El corte por altura permite explorar la estructura jerárquica completa del dendrograma, ofreciendo flexibilidad al observar cómo se agrupan las observaciones a diferentes niveles. Sin embargo, puede resultar subjetivo al elegir el punto exacto de corte.

En contraste, definir un número específico de clusters con k es más controlado y replicable, y puede apoyarse en criterios como el método de la silhouette, que evalúa qué tan bien se agrupan los datos.

En este caso, se recomienda trabajar con un número fijo de clusters (por ejemplo, k = 6), ya que permite una interpretación más clara y consistente de los grupos, especialmente al compararlos o analizarlos más adelante. Además, el método de silhouette sugiere un valor óptimo de k, brindando mayor respaldo estadístico para tomar la decisión.

Analisis de Componentes Principales(ACP)

Mediante el Análisis de Componentes Principales (PCA) se logró simplificar la base de datos de 87 países, identificando que las dos primeras dimensiones explican más del 63% de la información, lo cual permitió reducir variables sin perder lo esencial.

Al aplicar un análisis de clúster sobre estas dimensiones, se pudo identificar cuatro grupos de países con perfiles socioeconómicos claramente diferenciados. Uno de ellos presenta altos niveles de desarrollo y acceso a servicios, mientras que otro refleja problemas laborales marcados. También se distingue un grupo con bajo gasto social y otro con enfoque ambiental, pero rezago en educación y servicios básicos.

Estos resultados muestran que los países tienen diferencias claras entre sí y que es posible clasificarlos según lo que más se parece en sus datos. Esto ayuda a entender mejor sus realidades y a compararlos de forma más ordenada.

Kmeans

Para concluir el análisis de kmeans, se agruparon los países en 4 secciones o clústeres, basados en variables sociales y económicas. Para un mayor detalle en la heterogeneidad de los países, nos quedamos con el método del codo, el cual mostró que 4 agrupaciones era la mejor opción ya que a partir de ese punto el error ya no bajaba significativamente.

A la hora de revisar las gráficas se evidencia que los grupos quedaron bien definidos y también que algunos países tienen características bastante distintas al resto. Por ejemplo, un clúster presenta altos niveles en educación, acceso a internet y servicios básicos, mientras que otro tiene valores bajos en casi todos los indicadores.

También hay un grupo que destaca por usar más energías renovables. En general, esta clasificación permite comparar de manera sencilla qué tan parecidos o diferentes son los países según su nivel de desarrollo.


Bibliografía