Agrupamiento y Categorización de Países mediante Técnicas de Aprendizaje No Supervisado

Introducción

El análisis que se presenta a continuación se enmarca dentro del aprendizaje no supervisado, con el propósito de explorar patrones comunes y diferencias significativas entre países a partir de un conjunto de variables cuantitativas relacionadas con el desarrollo social, económico y demográfico. A diferencia de los enfoques supervisados, en los que se parte de una variable objetivo previamente definida, aquí se busca encontrar estructuras internas en los datos sin ninguna clasificación previa.

GIF ilustrativo


La información analizada corresponde a indicadores recientes obtenidos de Our World in Data y el Banco Mundial, Las variables seleccionadas representan dimensiones clave del desarrollo y permiten captar aspectos como acceso a servicios básicos, inversión pública, condiciones de vida, entre otros. Este enfoque resulta útil para identificar grupos de países con características similares, lo cual puede ser útil tanto para análisis exploratorios como para la formulación de políticas públicas diferenciadas.

Los datos corresponden al año 2021 y, tras el proceso de depuración, se consolidó una base de datos compuesta por 103 países.

Para este estudio se utilizaron las siguientes 14 variables:

A partir de este conjunto de datos, se implementan diversas herramientas del aprendizaje no supervisado, cuyo detalle metodológico se presenta a continuación.

Metodología

En este trabajo se utiliza el aprendizaje no supervisado para analizar y descubrir patrones ocultos en los datos relacionados con diferentes países, a partir de variables sociales, económicas y demográficas. El objetivo es identificar estructuras latentes que permitan comprender mejor las relaciones entre estos países sin partir de clasificaciones previas.

En particular, se hace uso de varias herramientas y modelos que son comunes en este tipo de análisis, entre los que se destacan:

  • Estandarización de variables para garantizar comparabilidad.
  • Análisis de Componentes Principales (PCA).
  • Algoritmo de agrupamiento k-means.
  • Análisis de clúster jerárquico.
  • Criterios como el método del codo y el índice de silueta.

Para comenzar, estandarizan todas las variables, con el fin de evitar que las diferencias en las escalas originales afecten el análisis. Esto garantiza que cada variable aporte de manera equitativa a la interpretación de los resultados.

A continuación, se emplea un Análisis de Componentes Principales (PCA), que es una técnica estadística que permite reducir la cantidad de variables originales a unas pocas dimensiones principales. Estas nuevas dimensiones explican la mayor parte de la variabilidad en los datos, lo que facilita la visualización y la comprensión de la información. El PCA también ayuda a identificar qué variables tienen mayor influencia en cada componente, y permite observar la proporción de varianza que cada componente explica.

Para identificar agrupamientos o clústeres dentro de los datos, se aplican dos métodos diferentes. Por un lado, el método k-means, que consiste en asignar cada país a un grupo cuyo centroide minimiza la distancia entre los datos y el centro del clúster.

Por otro lado, se utiliza el agrupamiento jerárquico, que crea una estructura en forma de árbol llamada dendrograma que refleja las relaciones de similitud entre los países según la distancia euclidiana y el método de enlace de Ward.

Antes de aplicar ambos métodos, es fundamental determinar la cantidad óptima de grupos. Para ello, se usan criterios como el método del codo y el índice de silueta, los cuales ofrecen una guía objetiva sobre el número de clústeres que mejor representan la estructura subyacente de los datos.

Finalmente, los resultados se visualizan en el espacio reducido que generan las dos primeras componentes principales del PCA.

En el caso de k-means, se observan claramente los grupos formados y sus centros, lo que permite interpretar la distribución de los países dentro de cada clúster. Para el agrupamiento jerárquico, además del dendrograma, se generan gráficos de dispersión que incluyen las posiciones de los países, líneas que los conectan con el centro del grupo y formas envolventes que resaltan la agrupación, facilitando una interpretación visual más clara de la estructura encontrada.

Descriptivas analíticas

Las bases de datos seleccionadas inicialmente comprendían un conjunto amplio de países, con un rango de entre 190 y 208. Sin embargo, debido a las diferencias en la disponibilidad de datos y a los requerimientos del análisis, se decidió eliminar aquellos países que presentaban valores faltantes (N/A) en alguna de las variables. Es importante señalar que se conservaron los registros con valores de 0, siempre que estos fueran válidos dentro del contexto de la variable correspondiente. Luego de este proceso de depuración, se conformó una base de datos definitiva con 103 países y 14 variables.

Base de datos

A continuación se presenta la base de datos consolidada utilizada en el análisis. Sobre ella se aplicaron todos los métodos exploratorios, multivariados y de agrupamiento. Contiene indicadores clave que permiten caracterizar y comparar el nivel de desarrollo de los países incluidos en el estudio.

Base de datos escalada

Adicionalmente, se presenta una segunda versión de esta base de datos en la que las variables han sido estandarizadas. Esta base escalada convierte los datos originales a una misma escala, lo que permite una mejor comprensión comparativa entre las variables y garantiza que cada una aporte de manera equitativa al análisis, evitando distorsiones causadas por diferencias en las unidades o magnitudes iniciales.

Variables

Esperanza de vida al nacer

Este indicador representa el número promedio de años que se espera que viva una persona desde el momento de su nacimiento, si las condiciones de mortalidad actuales se mantienen constantes a lo largo de su vida. Refleja múltiples dimensiones del bienestar, incluyendo el acceso a servicios de salud, niveles de nutrición, educación sanitaria y condiciones ambientales. Una mayor esperanza de vida está comúnmente asociada a mejores condiciones de vida y sistemas de salud más eficaces.

Tasa de mortalidad infantil

Mide el número de muertes de niños menores de cinco años por cada 100 nacidos vivos en un año determinado. Es uno de los indicadores más sensibles del desarrollo humano y del estado de salud pública en un país, ya que refleja tanto el acceso a servicios médicos básicos como la nutrición, el nivel de pobreza, el saneamiento y la educación materna. Una alta tasa sugiere fallas estructurales en el sistema de salud y protección social.

Cobertura de los servicios esenciales de salud

Refleja el grado de acceso de la población a servicios fundamentales del sistema sanitario, como atención primaria, vacunación, atención a enfermedades infecciosas y salud materno-infantil. Es un índice compuesto desarrollado por organismos internacionales para medir la equidad y eficacia del sistema de salud. Una cobertura amplia es clave para alcanzar objetivos de salud pública y desarrollo sostenible.

Tasa de desempleo

Representa el porcentaje de personas en edad y disposición de trabajar que están activamente buscando empleo y no lo encuentran. Una alta tasa de desempleo puede reflejar crisis económicas, falta de inversión o desajustes estructurales en el mercado laboral. A su vez, tiene impactos directos en la cohesión social, el consumo y la pobreza. Es un indicador fundamental del bienestar económico de una sociedad.

PIB Per Cápita

El Producto Interno Bruto per cápita se calcula dividiendo el valor total de bienes y servicios producidos en un país (PIB) entre su población total. Es una medida estándar del nivel de ingreso promedio de los ciudadanos y, aunque no captura desigualdades, se usa ampliamente para comparar el desarrollo económico entre países. Un valor alto suele correlacionarse con mejores niveles de vida, aunque no necesariamente con bienestar general.

Desarrollo Humano (IDH)

El Índice de Desarrollo Humano (IDH) es una forma de medir la calidad de vida de la población de un país, teniendo en cuenta factores como la salud, la educación y los ingresos, este índice se mide con valores entre 0 y 1, donde los valores más cercanos a 1 indican un mayor nivel de desarrollo humano en el país. El IDH nos da una vista más amplia y humana sobre el desarrollo de una sociedad.

Personas que utilizan internet (% de la población)

Indica el porcentaje de personas que han utilizado internet al menos una vez en los últimos tres meses. Este indicador mide el nivel de conectividad digital de una sociedad, lo cual está estrechamente ligado al acceso a la información, a la educación, a la innovación y al desarrollo económico. Un alto porcentaje refleja avances en infraestructura tecnológica y reducción de la brecha digital.

Acceso a electricidad

Refiere porcentaje de la población que dispone de acceso confiable a electricidad en su lugar de residencia, ya sea mediante la red eléctrica nacional o mediante fuentes alternativas como paneles solares o generadores.

Fuentes hidricas mejoradas

Indica la proporción de la población que utiliza fuentes de agua potable consideradas seguras, como tuberías dentro del hogar, pozos protegidos, sistemas de recolección de agua de lluvia o redes públicas tratadas. Estas fuentes reducen significativamente el riesgo de enfermedades transmitidas por el agua y son un componente esencial del acceso al agua segura.

Mejora de las instalaciones de saneamiento

Porcentaje de la población que tiene acceso a instalaciones de saneamiento mejoradas, es decir, aquellas que separan higiénicamente los desechos humanos del contacto humano. Esto incluye inodoros conectados a sistemas de alcantarillado, fosas sépticas seguras o letrinas mejoradas. Es un indicador crítico para la salud pública y la dignidad humana.

Población con acceso a combustibles limpios para cocinar

Porcentaje de la población que utiliza combustibles limpios y tecnologías modernas para cocinar, como gas licuado de petróleo (GLP), electricidad, biogás o cocinas solares.

Tasa de finalización de la educación primaria

Mide el porcentaje de estudiantes que completan exitosamente la educación primaria, en relación con la cohorte esperada por edad. Es un indicador importante del rendimiento y la equidad del sistema educativo, y puede verse afectado por factores como pobreza, trabajo infantil, desigualdad de género o calidad de la enseñanza. Su mejora es esencial para el desarrollo de capital humano.

Urbanización

Este indicador muestra el porcentaje de la población que reside en zonas urbanas frente a áreas rurales. La urbanización suele estar relacionada con el desarrollo económico, el acceso a servicios, la industrialización y la modernización social. Sin embargo, también puede generar desafíos como la congestión, la expansión descontrolada de ciudades o la marginación urbana si no es planificada adecuadamente.

Tasa de natalidad

Refleja el número de nacimientos vivos por cada 1,000 habitantes en un año. Este indicador es fundamental para analizar el crecimiento poblacional, la transición demográfica y las necesidades futuras de servicios públicos como educación, salud y vivienda. En combinación con la tasa de mortalidad, permite comprender la dinámica demográfica de un país.

Medidas de tendencia central

La siguiente tabla presenta las principales medidas de tendencia central y dispersión para las variables cuantitativas del estudio. Se incluyen la media, mediana, moda (cuando es aplicable) y los percentiles 0%, 25%, 50%, 75% y 100%. Estas estadísticas permiten identificar la distribución general de los datos, detectar posibles asimetrías y comprender el rango de variabilidad presente en las variables analizadas.

Diagrama de distribución de datos

A continuación, se presenta un diagrama de cajas que muestra la distribución de cada una de las 14 variables utilizadas en el análisis, ya estandarizadas. Para su elaboración, se empleó la base de datos escalada, en la cual todas las variables fueron transformadas a una misma escala mediante la estandarización Z-score. Esto permite comparar variables con distintas unidades de medida de forma equitativa, eliminando el efecto de las diferencias de magnitud entre ellas.

La escala utilizada en este gráfico corresponde a los valores de Z, con un rango aproximado entre -3 y 4. Esta representación facilita la visualización de la dispersión, la mediana y los posibles valores atípicos de cada variable dentro del conjunto de los 103 países considerados.

Gráfico de correlación

Se presenta a continuación un gráfico de correlación que muestra las relaciones entre las variables del estudio, permitiendo identificar posibles asociaciones entre ellas.

Uno de los aspectos más destacados es el papel central del Índice de Desarrollo Humano (IDH), que muestra una fuerte relación positiva con variables clave del bienestar, como la esperanza de vida al nacer, el PIB per cápita, el acceso a servicios básicos (electricidad, agua potable, saneamiento) y el uso de Internet. Esto sugiere que el IDH no solo refleja aspectos de salud y educación, sino que está estrechamente vinculado a las condiciones materiales y tecnológicas que permiten una mejor calidad de vida. En este sentido, los países con IDH más alto tienden a estar mejor posicionados en términos de infraestructura, conectividad digital y condiciones de vida en general.

Por otro lado, indicadores como la tasa de natalidad y la mortalidad infantil presentan correlaciones negativas marcadas con el IDH y otros factores de desarrollo. Este patrón es coherente con los procesos de transición demográfica: a medida que una sociedad avanza en salud, educación y condiciones socioeconómicas, las tasas de fertilidad disminuyen y la supervivencia infantil mejora. Además, estas dos variables están inversamente relacionadas con el PIB per cápita y la esperanza de vida, reforzando su identificación como rasgos propios de contextos con menor nivel de desarrollo.

Un punto interesante es el comportamiento de la tasa de desempleo, la cual no muestra una relación clara con la mayoría de los demás indicadores. Esta baja correlación sugiere que el desempleo puede depender más de factores internos específicos de cada país, como políticas económicas, estructuras productivas o coyunturas temporales, y no necesariamente del nivel general de desarrollo humano.

Modelos de Aprendizaje No Supervisado (ANS)

Los Modelos de Aprendizaje No Supervisado (ANS) son técnicas estadísticas y computacionales utilizadas para explorar y analizar datos sin la necesidad de contar con etiquetas o categorías predefinidas. A diferencia del aprendizaje supervisado, en el cual se entrena un modelo a partir de datos clasificados previamente, en el aprendizaje no supervisado el objetivo principal es identificar patrones, estructuras internas o agrupaciones naturales dentro del conjunto de datos.

Estas metodologías resultan especialmente útiles cuando se dispone de grandes volúmenes de información sin clasificar, permitiendo descubrir relaciones subyacentes que no son evidentes a simple vista. Dentro de los modelos más comunes se encuentran el análisis de clústeres, la reducción de dimensiones y los mapas autoorganizados, entre otros. En este contexto, los modelos ANS son una herramienta fundamental para el análisis exploratorio y la segmentación basada únicamente en las características observadas de los datos.

K-means

El método K-means es una técnica de análisis de clústeres que permite agrupar observaciones en conjuntos o clústeres con características similares. En este estudio, se utilizó para identificar patrones comunes entre los países a partir de las variables, permitiendo una clasificación significativa basada en la cercanía de sus datos.

Para determinar el número adecuado de clústeres en el análisis K-means, se utilizaron dos métodos complementarios: el método del codo y el análisis del coeficiente de silueta promedio. Ambos enfoques ofrecen información complementaria que permite tomar una decisión informada sobre la cantidad de clústeres más adecuada para el análisis.

Diagrama de silueta

Este gráfico representa el promedio de los coeficientes de silueta para cada valor de k. El coeficiente de silueta mide qué tan bien se ajusta un punto a su propio clúster en comparación con los demás clústeres. Su valor va de −1 a 1, y mientras más alto, mejor definida está la agrupación.

Podemos apreciar que:

  • El valor máximo del coeficiente promedio de silueta se alcanza también en k = 2, con un valor cercano a 0.5, lo cual indica una estructura de clústeres bastante clara.

  • A partir de k=3, el valor de la silueta disminuye gradualmente, lo que indica que los clústeres son menos compactos y más solapados.

  • No se observa una segunda mejora relevante, lo cual refuerza que k = 2 es el valor más robusto.

Según el método del coeficiente de silueta, podemos concluir que el valor óptimo también es 2 clústeres.

Diagrama de codo

Este gráfico muestra la relación entre el número de clusters k y la suma total de las distancias cuadradas dentro de los clusters (Total Within Sum of Squares, WSS).

Tenemos que:

  • El gráfico muestra una disminución brusca de la WSS entre k = 1 y k = 2; a partir de ahí, el descenso es más suave y progresivo.

  • El “codo” (punto de inflexión) se ubica claramente en k = 2, que es donde la disminución deja de ser significativa.

  • Este punto representa el número óptimo de clusters, ya que agregar más clusters a partir de ese valor no mejora mucho la compactación de los grupos.

Entonces, según el diagrama de codo, el número óptimo de clústeres sería 2.

Aplicación de K-means con k= 2

Con base en los resultados obtenidos mediante el método del codo y el análisis del coeficiente de silueta, se determinó que el número óptimo de clústeres es k = 2. A continuación, se aplica el algoritmo K-means para segmentar los países en dos grupos diferenciados según sus características socioeconómicas y energéticas. Esta clasificación permite identificar similitudes internas dentro de cada grupo y contrastes entre ellos.

El gráfico representa la proyección de los países sobre los dos primeros componentes principales (PC1 y PC2), tras aplicar el algoritmo de agrupamiento K-means con k=2. Esta visualización permite entender la estructura latente en los datos y cómo los países se agrupan según su similitud multivariable.

Distribución espacial de los clústeres

Clúster 1 (Rojo):

  • Se extiende desde el centro hacia la derecha inferior del gráfico, donde están ubicados países como Noruega, Suiza, Luxemburgo, Alemania, Países Bajos, Irlanda, entre otros.

  • Esta zona está dominada por los países que, en las variables originales, exhiben altos niveles de desarrollo humano, infraestructura, salud y tecnología.

  • También se agrupan aquí varios países de ingresos medios que han avanzado significativamente en acceso a servicios y reducción de brechas sociales, como México, Colombia, Argentina, Turquía o Jordania.

  • La densidad de puntos es alta, lo que indica una mayor similitud interna entre estos países en términos de los indicadores considerados.

Clúster 2 (Azul):

  • Está concentrado a la izquierda del gráfico, principalmente en el cuadrante inferior izquierdo.

  • Este clúster contiene países como Níger, Chad, Etiopía, República Democrática del Congo, Guinea, Haití, entre otros.

  • Estos países tienden a tener indicadores mucho más rezagados, especialmente en términos de acceso a servicios básicos, esperanza de vida, uso de Internet, y niveles de ingreso.

  • La dispersión del grupo azul es mayor, lo cual puede indicar heterogeneidad interna: hay países que, aunque se agrupan por similitudes relativas, aún presentan diferencias significativas entre sí dentro del grupo.

Significado de las componentes principales (PC1 y PC2)

  • PC1 parece capturar un gradiente de desarrollo estructural. Moverse hacia la derecha implica mayor desarrollo (más IDH, más acceso a servicios, más educación, etc.).

  • PC2 podría reflejar otras diferencias secundarias, como características geográficas, políticas públicas específicas o modelos económicos, aunque su peso es menor que el de PC1.

Existe una división estructural significativa entre dos grupos de países, donde uno de ellos (Cluster rojo) se puede caracterizar por un conjunto de condiciones que favorecen el desarrollo humano, como acceso a servicios esenciales, infraestructura tecnológica, ingresos altos y mejores indicadores de salud, mientras que el otro grupo (Cluster azul) enfrenta múltiples limitaciones estructurales que obstaculizan su progreso en esas mismas dimensiones.

Análisis Multivariado

Con el fin de abordar la complejidad del conjunto de datos y facilitar su análisis, se recurrió a técnicas de análisis multivariado. En particular, se aplicó un Análisis de Componentes Principales (PCA, por sus siglas en inglés), una herramienta estadística que permite reducir la cantidad de dimensiones del conjunto de datos manteniendo la mayor parte posible de la variabilidad original. Esta técnica transforma las variables originales en un nuevo conjunto de componentes no correlacionados, ordenados según la proporción de varianza que explican. De esta manera, se logra una representación más manejable de la información, preservando las relaciones fundamentales entre los datos y facilitando su interpretación visual y analítica.

Dimensionalidad

A continuación, se presenta un gráfico que muestra el porcentaje de varianza explicada por cada componente, lo cual permite determinar cuántas dimensiones son relevantes para el análisis posterior.

Observaciones clave

  • PC1 (Primera componente principal) explica casi el 70% de la varianza total. Esto indica que gran parte de la información de los datos está concentrada en una sola dimensión.

  • PC2 explica aproximadamente un 10% adicional de la varianza. Juntas, PC1 y PC2 suman más del 80% de la varianza total, lo que es excelente para reducir la dimensionalidad sin perder demasiada información.

  • A partir del tercer componente (PC3), la varianza explicada cae drásticamente y se estabiliza, con cada componente aportando menos del 5%.

Esto sugiere que los componentes a partir de PC3 tienen poca relevancia para describir la estructura general de los datos.

Este scree plot muestra un patrón típico de “codo” claro entre PC1 y PC2, lo que respalda una reducción de dimensionalidad a dos componentes principales. Esto es coherente con los análisis previos de K-means, ya que permite visualizar y clasificar a los países en un plano bidimensional sin perder información esencial.

El gráfico refuerza la idea de que la mayor parte de la variabilidad entre los países está asociada a una dimensión principal.

Tabla de la varianza Explicada por Componentes

La siguiente tabla resume la proporción de varianza explicada por cada componente principal del PCA, facilitando la interpretación y selección de las dimensiones más relevantes.

Gráfico de PCA – Individuos

Este gráfico muestra a los países ubicados según las dos primeras dimensiones del PCA. El color y ubicación indica qué tan bien está representado cada país en este plano.

Agrupaciones visuales e interpretación

Extremo izquierdo (Dim1 Negativo):

  • Países como: Chad, Níger, RD Congo, Burundi, Uganda.

Corresponden a países con menor nivel de desarrollo humano, acceso limitado a servicios básicos, alta mortalidad infantil y baja esperanza de vida.

Centro del gráfico:

  • Países de desarrollo intermedio como: Guatemala, Nicaragua, Honduras, Egipto, Bolivia.

Presentan una combinación de condiciones, a menudo con avances parciales en educación, salud o economía.

Extremo derecho (Dim1 Positivo):

  • Países como: Noruega, Luxemburgo, Alemania, Japón, Australia, Canadá.

Representan a los países más desarrollados, con altos niveles de PIB per cápita, acceso total a servicios, baja tasa de mortalidad y alta esperanza de vida.

Superior derecha (Dim2 Alto):

  • Jordania, Macedonia del Norte, Georgia.

Posiblemente países con características estructurales o políticas diferentes que los separan del resto de países desarrollados.

Inferior central: - Muchos países latinoamericanos y del sudeste asiático (México, Perú, Indonesia, Jamaica).

Son países con una posición intermedia, que combinan algunos indicadores altos con otros aún en desarrollo.

Este gráfico confirma la existencia de un eje estructural claro (Dim1) que refleja el nivel de desarrollo humano. La distribución de países a lo largo de ese eje muestra una gradiente de desarrollo desde los más vulnerables hasta los más avanzados. La segunda dimensión (Dim2) ayuda a capturar matices adicionales que explican diferencias regionales o específicas entre países de desarrollo similar.

Además, los colores indican que los países más extremos (tanto desarrollados como subdesarrollados) están mejor representados en este plano, lo que valida el uso de estas dos dimensiones para análisis y visualización.

Gráfico de PCA – Variables

El gráfico muestra la proyección de las variables sobre los dos primeros componentes principales del PCA. Cada vector representa una variable, donde la dirección indica su relación con los componentes, y la longitud su nivel de contribución. Los colores refuerzan esta información: los vectores más intensos corresponden a variables que aportan en mayor medida a la varianza explicada.

Ejes interpretados:

  • Dimensión 1 (69.9% de la varianza explicada): Representa un eje claro, el cual aglutina variables que definen el bienestar estructural de una sociedad.

  • Dimensión 2 (8.1% de la varianza explicada): Captura variaciones vinculadas al ámbito socioeconómico, con un énfasis particular en el desempleo, aunque también recoge matices secundarios de los datos.

En general:

  • Las flechas representan las variables originales estandarizadas.

  • La longitud de cada flecha indica la importancia relativa de la variable en la construcción del componente: cuanto más larga, mayor peso tiene.

  • El color representa la contribución cuantitativa (contribución al eje) de la variable: colores rojizos indican mayor influencia, colores azulados menor.

Contribuciones

Dimensión 1:

Las siguientes variables apuntan fuertemente hacia la derecha y comparten una misma orientación, lo que sugiere alta correlación positiva entre ellas:

  • Esperanza de vida al nacer (años)
  • IDH (Índice de Desarrollo Humano)
  • PIB per cápita
  • Acceso a electricidad
  • % población con acceso a combustibles limpios
  • Cobertura de servicios esenciales de salud
  • Personas que utilizan Internet (%)

Estas variables forman un bloque cohesionado que representa países con infraestructura sólida, alto acceso a servicios básicos, conectividad digital y buenos resultados en salud y educación. Esta alineación también coincide con los resultados del análisis de correlaciones y del agrupamiento, donde estos indicadores definen un grupo claramente más avanzado.

Dimensión 2:

  • Tasa de desempleo es la variable más orientada hacia el eje vertical, lo que indica que define en gran medida la segunda dimensión, independiente del eje estructural de desarrollo humano.

Esta variable no está altamente correlacionada con otras del modelo, lo que sugiere que las dinámicas laborales tienen una naturaleza más contextual, posiblemente influida por factores económicos coyunturales o políticas nacionales específicas.

Variables con baja o ambigua contribución:

  • Variables como la proporción de población urbana, % fuente de agua mejorada, y % de mejora en instalaciones de saneamiento se ubican cerca del origen o con flechas cortas, indicando baja capacidad explicativa dentro del plano formado por las dos primeras dimensiones.

  • Esto no significa que sean poco importantes, sino que su variabilidad no está suficientemente capturada en estas dos dimensiones y probablemente se refleja en componentes posteriores.

Agrupamientos visuales de las variables:

Las variables positivamente asociadas al desarrollo humano están concentradas y orientadas de forma coherente hacia la derecha, mostrando una interdependencia sistémica: mejores servicios y condiciones económicas suelen coexistir.

En cambio, variables como la tasa de mortalidad infantil y la tasa de natalidad total están fuertemente orientadas hacia la izquierda, reflejando una relación inversa con el desarrollo. Este patrón ya se evidenció en el análisis de correlación, donde ambas variables tenían correlaciones negativas fuertes con el IDH y otros indicadores de bienestar.

Podemos concluir que este gráfico refuerza la existencia de un eje estructural de desarrollo humano, sintetizado principalmente en la primera dimensión del PCA, en el que las variables de salud, educación, conectividad y acceso a servicios básicos están positivamente correlacionadas. Por otro lado, la segunda dimensión ofrece una lectura complementaria centrada en condiciones laborales, en particular el desempleo, que funciona como un factor diferenciador secundario.

Este análisis aporta claridad sobre cómo se estructuran las dimensiones del bienestar en la muestra de países: mientras unos indicadores reflejan mejoras simultáneas (como servicios e ingreso), otros como el desempleo varían independientemente, reforzando la necesidad de considerar múltiples ejes al diseñar políticas de desarrollo.

Gráfico PCA - Biplot

El siguiente gráfico combina la proyección de los países y las variables sobre las dos primeras dimensiones del PCA. Esto permite observar simultáneamente la distribución de los países y la influencia de cada variable en la formación de los ejes.

Relación entre variables y países:

Las flechas indican hacia dónde aumenta cada variable. Cuanto más alineado esté un país con una flecha, más valor tiene en esa variable.

Por ejemplo:

  • Luxemburgo está cerca del vector PIB per cápita → es uno de los países con mayor ingreso per cápita.

  • Chad está en dirección opuesta a variables como IDH, esperanza de vida, servicios de salud → presenta bajos niveles en estos indicadores.

  • Namibia y Yibuti están en dirección de la flecha de tasa de desempleo, lo que indica niveles altos.

A modo de conclusión:

  • El PCA logra diferenciar claramente a los países según desarrollo humano (eje X) y condiciones laborales (eje Y).

  • La mayoría de las variables asociadas al desarrollo están fuertemente alineadas con la Dimensión 1.

  • La tasa de desempleo es un eje ortogonal (perpendicular), lo que indica que no necesariamente está correlacionada con desarrollo humano.

  • Los países se agrupan en clústeres según sus niveles de acceso a servicios, ingreso, y empleo.

Clustering Jerárquico

El clustering jerárquico es una técnica de aprendizaje no supervisado que permite agrupar observaciones en función de su similitud, sin necesidad de definir previamente el número de clústeres. A través de este método, se construye un dendrograma que representa la estructura de agrupamiento en forma de árbol, facilitando la identificación de relaciones entre los países analizados. Esta visualización permite explorar distintas posibles segmentaciones al cortar el dendrograma en diferentes niveles.

Dendograma

Proseguimos con el gráfico para visualizar cómo se agrupan los países según sus características.

Este dendrograma representa la agrupación jerárquica de países a partir de sus similitudes en indicadores de desarrollo humano y socioeconómico. En él, las ramas representan fusiones entre países o grupos de países, y la altura a la que se unen refleja el nivel de disimilitud.

Con un corte a altura h = 15, el árbol queda dividido en 3 grandes clusters, coloreados en rojo, verde y azul.

Interpretación de los clústers

Cluster 1 (rojo): Países con bajo desarrollo relativo.

  • Este grupo incluye países como: Níger, Chad, Burkina Faso, República Centroafricana, Burundi, Mozambique, Etiopía, Camerún, Mali, Madagascar, entre otros.

Características esperadas:

  • Bajo Índice de Desarrollo Humano (IDH)
  • Altas tasas de mortalidad infantil y natalidad
  • Bajo acceso a servicios esenciales (agua, electricidad, internet)
  • Menor esperanza de vida y nivel educativo

Este grupo refleja claramente una estructura de subdesarrollo estructural, consistente con regiones históricamente rezagadas, particularmente de África Subsahariana.

Cluster 2 (verde): Países desarrollados o altamente consolidados.

  • Ejemplos: Noruega, Canadá, Francia, Alemania, Japón, Corea del Sur, Australia, Dinamarca, Países Bajos, Luxemburgo.

Características esperadas:

  • Alto IDH

  • Infraestructura sólida en salud, educación y servicios básicos

  • Altos niveles de conectividad digital

  • PIB per cápita elevado

  • Baja mortalidad infantil y alta esperanza de vida

Este grupo representa a los países con mejores condiciones de vida, estructuras sociales sólidas y desarrollos económicos maduros.

Cluster 3 (azul): Países en transición o con desarrollo medio:.

  • Incluye países como: México, Brasil, India, Marruecos, Indonesia, Egipto, Perú, Colombia, Jordania, Ucrania, Georgia, Serbia.

Características esperadas:

  • Desarrollo medio o emergente

  • Progresos en acceso a servicios, salud y educación, pero aún con brechas estructurales

  • Heterogeneidad interna: algunos países con buen desempeño en ciertos indicadores pero débiles en otros

Este cluster agrupa a países que no encajan claramente en los extremos del desarrollo global, pero que muestran trayectorias de crecimiento mixtas o desiguales.

La decisión de dividir los países en tres clusters mediante el análisis jerárquico ha resultado ser significativamente más beneficiosa para captar las diferencias estructurales en el desarrollo humano y socioeconómico, en comparación con la partición binaria sugerida inicialmente por el método de K-means (k = 2).

Mientras el K-means proporcionó una visión dicotómica útil distinguiendo entre países más y menos desarrollados, esta clasificación resultó limitada para describir las zonas grises o transicionales del desarrollo. Por el contrario, la segmentación jerárquica en tres grupos ha permitido identificar un grupo intermedio, conformado por países emergentes o en proceso de transformación, cuyos indicadores no encajan del todo en los extremos clásicos del desarrollo.

Este tercer cluster actúa como un puente analítico, revelando dinámicas mixtas: avances significativos en ciertos aspectos como la educación, urbanización o acceso digital, coexistiendo con desafíos persistentes en mortalidad infantil, desempleo o infraestructura. Así, la clasificación tripartita no solo refleja con mayor fidelidad la complejidad del desarrollo global, sino que también ofrece una base más sólida para diseñar estrategias diferenciadas de política pública, cooperación internacional o intervención social.

Conclusión del clustering jerárquico:

El desarrollo humano global no se distribuye únicamente en polos opuestos (alto vs. bajo desarrollo), sino que sigue una estructura escalonada donde existe un grupo intermedio de países en transición, cuyos indicadores combinan avances significativos con rezagos estructurales, diferenciándolos tanto de las economías más desarrolladas como de las más rezagadas.

Esta hipótesis surge a partir de la segmentación obtenida mediante el análisis jerárquico con un corte a altura h=15, que divide a los países en tres grupos estructuralmente distintos:

1. Países desarrollados, con altos niveles de salud, educación, infraestructura y conectividad.

2. Países en transición, con mejoras visibles pero desigualdades internas o desafíos aún latentes.

3. Países rezagados, con carencias estructurales que limitan el progreso sostenido.

La existencia de este cluster intermedio, ausente en la clasificación binaria del K-means, sugiere que el desarrollo humano no es simplemente una dicotomía, sino que muchos países se encuentran en un estado mixto.

Gráfico ClusterPlot

El siguiente gráfico presenta el resultado del análisis de clústeres proyectado sobre los dos primeros componentes principales obtenidos a través del PCA. En él se visualiza cómo se agrupan los países según la similitud en sus características multivariadas, permitiendo identificar patrones de comportamiento comunes entre ellos. Los puntos representan a cada país, mientras que los colores indican su pertenencia a un clúster específico.

Es importante tener en cuenta que la numeración y los colores de los clústeres en este gráfico no corresponden necesariamente a los del dendrograma anterior. A simple vista, el gráfico de ACP con clústeres puede parecer que tiene las polaridades invertidas respecto al de individuos (países), pero esto no altera su interpretación. En el análisis factorial, cambiar el signo de un eje no afecta el significado estadístico, ya que la dirección de los ejes es arbitraria siempre que se conserve la geometría de las distancias entre los puntos.

Clúster 1 (color negro):

  • Está ubicado cerca de la intersección entre la dimensión 1 y 2 en el centro ligeramente hacia arriba, y a la derecha del plano.

  • Su elipse es amplia, lo que nos indica mayor dispersión interna, es el más central con respecto a los otros dos, lo que le da más fuerza a una de las deducciones anteriores que asume que se trata de países con un nivel de desarrollo medio con características moderadas.

  • Es probable que incluya países heterogéneos, al observar que toma puntos muy alejados en la dimensión 1, lo que indica diversidad de perfiles dentro del grupo.

  • Refuerza la deducción de que agrupa países como México, Brasil, India o Egipto, caracterizados por progresos en servicios y desarrollo humano, pero con desigualdades persistentes. Es un grupo intermedio, con trayectorias de crecimiento mixtas y avances en ciertos indicadores, pero rezagos en otros.

Clúster 2 (color rojo):

  • Está ubicado a la izquierda del plano, levemente por debajo del eje horizontal.

  • La elipse es un poco más pequeña y compacta, lo que indica homogeneidad interna dentro del grupo.

  • Este clúster se distingue principalmente sobre la Dimensión 1, ya que los países de este grupo comparten valores extremos (positivos o negativos).

  • Refuerza la hipótesis de que se trata de países desarrollados como Noruega, Canadá, Francia o Japón, caracterizados por alto nivel de vida, infraestructura consolidada, elevada esperanza de vida y acceso generalizado a servicios esenciales. La compacidad del grupo refleja estabilidad estructural y desempeño homogéneo en desarrollo socioeconómico.

Clúster 3 (color verde):

  • Se ubica más a la derecha del plano que los anteriores, además se encuentra en la parte inferior de la dimensión 2.

  • Es un grupo pequeño con puntos cercanos entre sí, Su elipse es estrecha, lo que indica alta similitud entre los países.

  • Este clúster se distingue con un poco más de claridad que los otros clústeres, en especial sobre la dimensión 1.

  • Refuerza la hipótesis de que contiene países con bajo desarrollo, como Níger, Chad, Mozambique o Camerún, caracterizados por altas tasas de natalidad, bajo acceso a servicios básicos, baja esperanza de vida y bajo IDH. Su posición extrema indica condiciones estructuralmente desfavorables y un desempeño consistentemente bajo en múltiples indicadores.

En resumen, el clúster 1 es un grupo intermedio y diverso, mientras que el 2 y 3 son extremos opuestos respecto a la dimensión 1, por lo cual estos estos son bien representados por esta dimensión.

Análisis de Componentes: Contribuciones y Etiquetado de PCA

Contribución porcentual de las variables

La siguiente tabla muestra el porcentaje de contribución de cada variable a las diferentes dimensiones del análisis de componentes principales. Estas contribuciones reflejan qué tanto influye cada variable en la construcción de cada eje.

Dimensión 1

Las variables con mayores valores indican que están fuertemente correlacionadas con la Dimensión 1 y, por tanto, son las más influyentes para describir el eje de calidad de vida:

Estas variables están fuertemente asociadas con el desarrollo humano. Su alta contribución confirma que el primer componente captura principalmente el nivel de bienestar y servicios básicos de una población.

Dimensión 2

La tasa de desempleo es, con diferencia, la variable que más aporta a esta dimensión, lo cual se refleja en su fuerte alineación con el eje Y en el gráfico anterior. Además, el PIB per cápita presenta una contribución notable, lo que indica que esta dimensión no solo representa condiciones laborales, sino también diferencias económicas entre los países.

Nombramiento de las dimensiones del PCA

Tras un análisis exhaustivo de los datos mediante técnicas de reducción de dimensionalidad (PCA), correlaciones entre variables, y métodos de agrupamiento como K-means y clustering jerárquico, se identificaron patrones robustos y coherentes que permiten nombrar las dos primeras dimensiones principales de forma significativa y representativa.

Dimensión 1: Calidad de vida y Desarrollo Humano

GIF ilustrativo


Esta dimensión, que explica cerca del 70% de la varianza total, concentra una serie de variables altamente interrelacionadas que definen el nivel estructural de bienestar en los países analizados.

Estas variables presentan cargas altas y positivas en esta dimensión, y además se encuentran fuertemente correlacionadas entre sí. Estas variables son clásicamente reconocidas como indicadores nucleares del desarrollo humano, de acuerdo con marcos conceptuales como el del PNUD. Por ello, esta dimensión representa claramente un eje estructural de calidad de vida, reflejando tanto condiciones materiales como acceso a servicios básicos y tecnológicos.

Este patrón también fue respaldado por los resultados del gráfico de PCA de individuos, donde los países con valores altos en esta dimensión se agrupan sistemáticamente en clústeres con altos niveles de desarrollo, reafirmando su validez interpretativa.

Dimensión 2: Condiciones Laborales

GIF ilustrativo


La segunda dimensión, aunque explica una proporción menor de la varianza (alrededor del 8%), destaca por estar dominada por la tasa de desempleo, que muestra una clara proyección vertical en los gráficos de contribución y PCA de individuos. Esta variable no se correlaciona fuertemente con las del primer eje, lo que indica que capta una dinámica distinta, más asociada a la realidad interna del mercado laboral que al nivel estructural de desarrollo.

Este eje captura, por tanto, una dimensión complementaria pero no subordinada, que refleja las condiciones de inserción laboral de la población, lo cual es crucial para entender aspectos como la estabilidad económica, el acceso efectivo a ingresos, y el aprovechamiento del capital humano.

En este sentido, nombrar esta dimensión como “Condiciones Laborales” permite reflejar con precisión el contenido empírico que recoge, diferenciándola del eje estructural de desarrollo.

Conclusión

El análisis de aprendizaje no supervisado permitió descubrir estructuras subyacentes en los datos, segmentando a los países en tres grupos claramente diferenciados a partir de 14 variables socioeconómicas, de salud, tecnología y educación. La reducción de dimensiones mediante PCA mostró que la primera dimensión explica el 69.9% de la variabilidad, asociada a diferencias estructurales amplias entre países, mientras que la segunda dimensión representa un 8.1% adicional, capturando aspectos más específicos como el desempleo. El análisis de clústeres jerárquico y k-means concluyó en la división de los países en tres categorías: uno con alto desarrollo, otro con bajo desarrollo, y un grupo intermedio, caracterizado por trayectorias mixtas. El gráfico de contribución de variables evidenció que la tasa de desempleo fue la que más aportó a la Dim2, mientras que indicadores como el IDH y el acceso a servicios básicos influyeron con mayor fuerza sobre la Dim1. Este enfoque permitió representar más del 78% de la variabilidad total en solo dos dimensiones, facilitando una interpretación visual y estadística robusta sobre las diferencias entre países.

Este análisis nos permitió ver que los países no se agrupan por casualidad, por el contrario, sus condiciones de vida, economía, salud y educación los colocan, incluso sin saberlo, junto a otros con trayectorias similares. El modelo, sin etiquetas previas, fue capaz de identificar tres grupos: uno con países considerados potencias mundiales, otro que aún enfrenta dificultades muy profundas, y un tercero en el medio, con avances y retrocesos. Lo interesante es que las cifras no solo nos dicen qué tan diferente es un país del otro, sino que ayudan a entender por qué lo son. Algunos comparten problemas estructurales, otros desafíos recientes. No se trata de ver el mundo en blanco o negro, sino de reconocer los matices: hay países que aún luchan por cubrir necesidades básicas, otros que ya se enfocan en sostenibilidad o innovación, y muchos que viven en el equilibrio entre ambos extremos. Este tipo de análisis no solo describe realidades, también permite identificar hacia dónde puede ir cada país si fortalece sus capacidades.