Agrupamiento y Categorización de Países con Técnicas de ANS

Introducción

Implementación del ANS con el objetivo de explorar patrones comunes y diferencias significativas entre países, a partir de un conjunto de variables cuantitativas vinculadas al desarrollo social, económico y demográfico.

Metodología

Hacemos uso de múltiples herramientas como:

  • Estandarización de variables para garantizar comparabilidad.
  • Análisis de Componentes Principales (PCA).
  • Algoritmo de agrupamiento k-means.
  • Análisis de clúster jerárquico.
  • Criterios como el método del codo y el índice de silueta.

Base de datos

Matriz de correlación

Modelos de Aprendizaje No Supervisado (ANS)

Método del codo

Este gráfico muestra cómo la suma de cuadrados intra-cluster (WSS) disminuye al aumentar el número de clústeres. El “codo” se forma en k = 2, indicando que agregar más clústeres después de ese punto ofrece beneficios marginales. Por tanto, k = 2 es el valor óptimo de clústeres.

Método del índice de silueta

Este gráfico evalúa la cohesión y separación entre clústeres. El valor más alto de la anchura promedio de silueta ocurre en k = 2, lo que indica que esa cantidad de clústeres proporciona la mejor estructura de agrupamiento. Confirma que k = 2 es óptimo.

K-means

Cluster 1 (Rojo):

  • Ubicado en la parte centro-derecha del gráfico.

  • Incluye países como Noruega, Suiza, Alemania, Países Bajos, Irlanda, y algunos de ingreso medio como México, Colombia y Turquía.

  • Se caracteriza por altos niveles de desarrollo humano, infraestructura, salud y tecnología.

  • Muestra alta densidad de puntos, indicando similitud interna en los indicadores analizados.

Cluster 2 (Azul):

  • Se sitúa en el cuadrante inferior izquierdo del gráfico.

  • Incluye países como Níger, Chad, Haití, Etiopía y RDC.

  • Presenta bajos niveles de acceso a servicios básicos, salud, conectividad y renta.

  • Tiene mayor dispersión, lo que sugiere diferencias internas notables entre los países del grupo.

Significado de las componentes principales (PC1 y PC2)

  • PC1 parece capturar un gradiente de desarrollo estructural. Moverse hacia la derecha implica mayor desarrollo (más IDH, más acceso a servicios, más educación, etc.).

  • PC2 podría reflejar otras diferencias secundarias, como características geográficas, políticas públicas específicas o modelos económicos, aunque su peso es menor que el de PC1.

Explicación de las dimensiones

Las dos primeras componentes principales explican más del 77 % de la variabilidad total, lo que permite representar la mayoría de la información en solo dos dimensiones.

Gráfico de PCA – Países

La (Dim1) muestra un desarrollo desde los más vulnerables hasta los más avanzados. La segunda dimensión (Dim2) captura matices adicionales que explican diferencias regionales o específicas entre países de desarrollo similar.

Gráfico de PCA – Variables

La longitud de cada flecha indica la importancia relativa de la variable en la construcción del componente: cuanto más larga, mayor peso tiene.

Dimensión 1:

  • Esperanza de vida al nacer (años)
  • IDH (Índice de Desarrollo Humano)
  • PIB per cápita
  • Acceso a electricidad
  • % población con acceso a combustibles limpios
  • Cobertura de servicios esenciales de salud
  • Personas que utilizan Internet (%)

Representa países con infraestructura sólida, alto acceso a servicios básicos, conectividad digital y buenos resultados en salud y educación.

Dimensión 2:

  • Tasa de desempleo es la variable más orientada hacia el eje vertical, lo que indica que define en gran medida la segunda dimensión, independiente del eje estructural de desarrollo humano.

Gráfico BiPlot

Las flechas indican hacia dónde aumenta cada variable. Cuanto más alineado esté un país con una flecha, más valor tiene en esa variable.

Clustering Jerárquico

Dendograma

Cluster 1 (Rojo) – Países con bajo desarrollo relativo:

Este grupo refleja claramente una estructura de subdesarrollo estructural, consistente con regiones históricamente rezagadas, particularmente de África Subsahariana.

Cluster 2 (Verde) – Países desarrollados o altamente consolidados:

Este grupo representa a los países con mejores condiciones de vida, estructuras sociales sólidas y desarrollos económicos maduros.

Cluster 3 (Azul) – Países en transición o con desarrollo medio:

Heterogeneidad interna: algunos países con buen desempeño en ciertos indicadores pero débiles en otros.

ClusterPlot

En el análisis factorial, cambiar el signo de un eje no afecta el significado estadístico, ya que la dirección de los ejes es arbitraria siempre que se conserve la geometría de las distancias entre los puntos.

Análisis de Componentes: Contribuciones y Etiquetado de PCA

Contribuciones de las variables a cada dimensión

Interpretación:

La Dimensión 1 está fuertemente asociada al desarrollo humano y calidad de vida, destacando variables como IDH, salud, conectividad y acceso a servicios básicos.

La Dimensión 2 refleja principalmente condiciones económicas, siendo el desempleo su principal contribuyente, seguido del PIB per cápita.

Nombramiento de las dimensiones

Dimensión 1: Calidad de vida y Desarrollo Humano

Esta dimensión, que explica cerca del 70% de la varianza total, concentra una serie de variables altamente interrelacionadas que definen el nivel estructural de bienestar en los países analizados.

GIF ilustrativo

Nombramiento de las dimensiones

Dimensión 2: Condiciones Laborales

La segunda dimensión, aunque explica una proporción menor de la varianza (alrededor del 8%), destaca por estar dominada por la tasa de desempleo, que muestra una clara proyección vertical en los gráficos de contribución y PCA de individuos. Esta variable no se correlaciona fuertemente con las del primer eje, lo que indica que capta una dinámica distinta, más asociada a la realidad interna del mercado laboral que al nivel estructural de desarrollo.

GIF ilustrativo

Conclusiones

  • Nombrar las dimensiones como Calidad de Vida y Desarrollo Humano y Condiciones Laborales resume con claridad los patrones hallados y facilita su interpretación analítica y para políticas públicas
  • El PCA permitió sintetizar múltiples variables en dos dimensiones interpretables.
  • El aprendizaje no supervisado reveló estructuras claras de desigualdad global.
  • El desempleo aparece como un eje independiente del desarrollo humano.
  • La segmentación en 3 clústeres ofrece una lectura más rica que una división binaria.

Gracias por su atención