INTRODUCCIÓN

En el ámbito del análisis de datos, el aprendizaje no supervisado se destaca como una herramienta fundamental para explorar patrones y estructuras en conjuntos de datos sin la necesidad de etiquetas predefinidas. Este enfoque es especialmente útil cuando se busca descubrir agrupaciones naturales o reducir la dimensionalidad de los datos para facilitar su interpretación. En este taller, aplicaremos técnicas de aprendizaje no supervisado, como el Análisis de Componentes Principales (PCA) y los métodos de clustering (K-Means y Ward), para analizar un conjunto de datos socioeconómicos de diversos países en el año 2018.

El objetivo principal de este análisis es identificar grupos de países con características similares en términos de variables como empleo, comercio, consumo de materiales, inversión extranjera, productividad y desarrollo humano, entre otras.

METODOLOGÍA

Este análisis no solo nos permitirá comprender mejor la estructura subyacente de los datos, sino que también proporcionará información valiosa para la toma de decisiones en contextos socioeconómicos y políticos. A continuación, se detallan los procedimientos y resultados obtenidos en cada etapa del proceso.

Una vez seleccionadas las variables que formarán parte del análisis, el siguiente paso fundamental consiste en estandarizar cada una de ellas. Esta estandarización busca que todas las variables se encuentren en una misma escala, lo cual es especialmente importante cuando se trabaja con datos que presentan distintas unidades o rangos de magnitud muy diferentes. Si no se realiza este proceso, variables con valores absolutos más altos podrían dominar el análisis e influir en los resultados de manera desigual, generando una interpretación sesgada. De esta manera, es posible analizar con mayor precisión el impacto real de cada variable, especialmente en contextos donde las magnitudes juegan un papel importante.

Clusterización (Método de Ward y K-means)

El clustering es una técnica que organiza y clasifica diferentes objetos, puntos de datos u observaciones en grupos o clústeres basados en similitudes o patrones. Los métodos más utilizados para agrupar es por k-means o ward.

K-means

El método K-means es una técnica de clustering utilizada para agrupar datos en un número determinado de categorías o clústeres. Su objetivo principal es dividir un conjunto de datos en k grupos, de tal manera que los elementos dentro de cada grupo sean lo más similares posible entre sí. El funcionamiento de este método se puede describir en los siguientes pasos.

  • Se escoge el número de clusters que se quieren formar.
  • Se seleccionan aleatoriamente k puntos que servirán como los centroides iniciales de cada grupo.
  • Luego, cada dato del conjunto se asigna al clúster cuyo centroide esté más cercano.
  • Una vez asignados todos los puntos, se recalculan los centroides como el promedio de los elementos que pertenecen a cada grupo.
  • El proceso de asignación y actualización se repite hasta que los centroides dejan de cambiar significativamente.

Cada objeto en el conjunto de datos se representa mediante un vector de valores reales, definido por sus características (x₁, x₂, …, xₙ). El algoritmo K-means tiene como objetivo formar k grupos o clústeres {S₁, S₂, …, Sk}. Para lograrlo, el método minimiza la suma de las distancias entre cada objeto y el centroide de su respectivo grupo, es decir, el punto promedio que representa a cada clúster.

minS ∑ᵢ₌₁ᵏ ∑_{xⱼ ∈ Sᵢ} ‖xⱼ − μᵢ‖²

Ward

El método de Ward es una técnica de clustering jerárquico que agrupa los datos con base en la minimización de la varianza interna de los clústeres. A diferencia de K-means, que parte de un número fijo de grupos, el método de Ward comienza con cada objeto como su propio grupo y va fusionando los más similares paso a paso. Su funcionamiento se puede describir de la siguiente manera.

  • Primero, cada punto de datos se considera un clúster individual.
  • En cada paso, el método une los dos clústeres cuya fusión genera el menor aumento en la varianza total.
  • El proceso continúa hasta que todos los puntos pertenecen a un solo clúster y se forma el dendrograma.

El dendrograma es una herramienta muy útil, ya que permite identificar el número óptimo de clusters cortando el árbol en el punto donde se observe un cambio significativo en la distancia entre fusiones. El método de Ward es especialmente eficaz cuando se busca obtener grupos equilibrados en tamaño y con una baja variación interna. Por esta razón, es comúnmente utilizado en estudios de segmentación, como la agrupación de países según indicadores sociales o económicos.

Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales es una técnica de reducción de dimensionalidad que tiene como objetivo simplificar el conjunto de datos manteniendo la mayor cantidad posible de su variabilidad. En lugar de analizar cada indicador económico individualmente, ACP permite transformar las variables originales en un conjunto de “componentes principales”, que son combinaciones lineales de las variables originales y que capturan patrones importantes en los datos. Permitiendo representar los datos de forma más simple y clara. El ACP es especialmente útil para visualizar datos complejos, eliminar redundancias y preparar la información para otros análisis, como el clustering. Uno de los aspectos más importantes del ACP es interpretar correctamente los componentes obtenidos. Su interpretación surge al examinar cómo se relacionan con las variables originales. Cada componente principal es una combinación lineal de las variables iniciales. Esta combinación se expresa como: Z = λ₁X₁ + λ₂X₂ + … + λₚXₚ

VARIABLES

Para este análisis, se han considerado las siguientes variables, cada una de las cuales aporta información relevante sobre el desarrollo macroeconómico de un país:

Mide el valor económico promedio por persona en un país. Un PIB per cápita alto suele asociarse con mayor desarrollo, aunque no considera desigualdades internas ni diferencias en el costo de vida entre países y es crucial para comparar el bienestar económico entre países y evaluar su convergencia macroeconómica.

Por un lado, Employment_Agriculture indica el porcentaje de la población económicamente activa ocupada en actividades agrícolas, ganaderas y pesqueras. Valores altos en esta variable suelen encontrarse en países en desarrollo con economías predominantemente rurales y baja tecnificación.

En contraste, Employment_Industry mide el porcentaje de trabajadores en el sector secundario, que incluye manufactura, minería y construcción. Un valor elevado refleja una base industrial significativa, lo cual suele asociarse con niveles intermedios de desarrollo y procesos de industrialización.

Finalmente, Employment_Services representa la proporción de personas empleadas en el sector terciario, abarcando actividades como educación, salud, comercio, transporte y servicios financieros. Esta variable suele ser alta en países desarrollados con economías avanzadas, donde el sector servicios domina la estructura productiva. En conjunto, estas tres variables permiten caracterizar el nivel de transformación económica y el grado de diversificación productiva de cada país.

ANALISIS DESCRIPTIVO

Para realizar una estadística descriptiva representativa y enfocada, se seleccionaron variables que capturan unas dimensiones claves del desarrollo: empleo moderno, riqueza per cápita, desarrollo humano, pobreza extrema y capital humano. Esta selección permite evaluar diferencias estructurales entre países o regiones desde distintos frentes (económico, social, productivo), evitando redundancias y facilitando una visualización clara.

En cuanto a la variable Employment_Services, el gráfico de caja muestra que la mayoría de los países presentan valores por encima del promedio, lo cual se ve en su mediana situada en un rango positivo. Esto nos indica entonces que el sector de los servicios concentra una proporción importante en los paises estudiados. No obstante, se observa una asimetría hacia la izquierda con algunos valores atípicos bajos, esto podria interpretarse como que en algunas regiones el sector de servicios no es tan fuerte y tienen mayor influencia otros sectores económicos.

Extreme_Poverty, el boxplot revela que aunque la mediana está cerca de cero, existen numerosos valores atípicos hacia el extremo superior. Esto indica que, si bien la mayoría de los países tienen niveles moderados o bajos de pobreza extrema en comparación con el promedio global, existe un subconjunto importante de países donde este fenómeno sigue siendo crítico. La caja intercuartil es estrecha esto nos dice que los valores están bastante concentrados, lo que puede entenderse como una homogeneidad, a excepción de aquellos países donde la pobreza extrema está desbordada.

En el caso del GDP_per_capita, se observa que la mediana se encuentra en el rango negativo, indicando que más de la mitad de los países tienen un producto interno bruto per cápita por debajo del promedio estandarizado. La distribución es amplia, con una dispersión considerable hacia valores superiores, lo cual refleja la existencia de países con un PIB per cápita significativamente más alto que el resto. Estos valores extremos podrían estar representando economías altamente desarrolladas que elevan el rango general de esta variable, mientras que la mayoría permanece en niveles más bajos.

Por su parte, el HDI (Índice de Desarrollo Humano) presenta una mediana superior a cero, lo que sugiere que una buena parte de los países considerados poseen niveles de desarrollo humano por encima del promedio global. A pesar de ello, se identifican algunos valores atípicos en el extremo inferior, que corresponden a países con condiciones de desarrollo humano notablemente más bajas. En general, esta variable muestra una dispersión más moderada y una distribución relativamente equilibrada.

Finalmente, el Human_Capital_Indexrefleja un comportamiento similar al HDI. Su mediana también se encuentra en valores positivos, lo cual indica avances importantes en dimensiones como salud, educación y bienestar infantil en la mayoría de los países. La distribución es simétrica y la dispersión relativamente baja, aunque se identifican algunos valores extremos negativos que podrían reflejar carencias significativas en el desarrollo de capacidades humanas en ciertas regiones.

Matriz de correlación

También se realizó una matriz de correlación para analizar como se relacionan todas las variables del estudio entre sí.

En esta matriz se destaca una alta correlación positiva entre GDP_per_capita, HDI y Human_Capital_Index, lo que sugiere que estos tres indicadores están estrechamente relacionados. Específicamente, los países con mayores ingresos per cápita tienden a exhibir mayores niveles de desarrollo humano y capital humano, reflejando sinergias entre crecimiento económico y bienestar general. Este bloque de variables podría interpretarse como un conjunto que representa el nivel general de desarrollo.

También podemos notar que Employment_Services, por su parte, se correlaciona positivamente con HDI y Human_Capital_Index, de aqui podriamos interpretar que el empleo en el sector de servicios esta ligado a los indices de desarrollo humano y el desempeño de estos.

CLUSTERIZACIÓN

Inicialmente, se realizó un análisis de clustering utilizando el método de K-means, que sugirió un valor óptimo de k=3. Para corroborar esta información, se aplicó también el método de Ward o jerárquico, el cual coincidió en que el valor óptimo era k= 3.

Se puede observar en la gráfica del metodo jerarquico, que al agrupar en 3 clusters hay uno de ellos que presenta gran diferencia con los otros dos, esto puede deberse a valores muy extremos en alguna de las variables para estos dos elementos del cluster.

Aplicación del ACP

En este análisis, seleccionaremos solo el número de factores que nos permita acumular más del 70% de la varianza total, se muestra un gráfico con los primeros 10 factores y su porcentaje de varianza explicada.

Como se observa en el gráfico anterior, el primer componente principal (PC1) explica el 45.3% de la varianza, el segundo (PC2) un 14.8%, y el tercero (PC3) un 11.2%, sumando un total del 71.3%. A partir del cuarto componente, la varianza explicada disminuye considerablemente, lo que sugiere que mantener tres factores principales es suficiente para representar adecuadamente la estructura de los datos.

DESCRIPCIÓN DE FACTORES

Para describir los factores, se analizan las variables que más contribuyen a su formación. A partir del significado de estas variables, es posible interpretar una manera de denominar cada uno de los tres factores que se escogieron.

Para esto se presentan dos gráficas, una que analiza las dimensiones 1 y 2, y otra que analiza las dimensiones 1 y 3, asi se puede identificar cuales son las variables que contribuyen en cada uno de los 2 factores.

Dimensiones 1 y 2

Para la dimensión 1, ubicada como el eje X que explica un 45.3% podemos observar que las variables con mayor contribución son Labor productivity, HDI, Life expectancy, Employment services y GDP per capita yendo en la misma dirección hacia el lado negativo y Employment agriculture y Extreme poverty en la dirección contraria, hacia el lado negativo.

Para la dimensión 2, ubicada como el eje Y que explica un 14.8% encontramos las variables de Energy Intensity, Employment industry hacia el lado positivo del eje y FDI, Service Trade hacia el lado negativo, muestran una alta contribución de estas variables en la dimensión.

Dimensiones 1 y 3

En este grafico que relaciona la dimension 1 y la 3 solo analizamos la dimensión 3 pues la 1 ya fue analizada en el gráfico anterior. Para esta dimensión podemos observar como Unemployment Rate apuntando hacia el lado negativo tiene una alta contribución y apuntando hacia el lado contrario Trade as a share of GDP también con una alta contribución, otras variables con menor contribución pero que igual estpán presentes son FDI y Energy Intensity

De esta manera las dimensiones quedan definidas de la siguiente manera, basadas en las variables que contribuyen en ellas:

  • Dimensión 1: Desarrollo Humano y Productividad Económica, Este factor representa un eje de desarrollo humano y económico general. Los países con valores negativos aquí tienen alto desarrollo humano, ingresos y servicios, mientras que los positivos tienen más agricultura y pobreza extrema.

  • Dimensión 2: Estructura Productiva y Apertura Comercial, Este factor parece diferenciar entre países más industrializados e intensivos en energía y materiales (positivo), frente a otros más abiertos al comercio y servicios internacionales (negativo).

  • Dimensión 3: Comercio, Industria y Empleo, Este eje parece reflejar una dinámica mixta de participación internacional en comercio e industria, donde valores positivos indican mayor actividad comercial e industrial, y valores negativos reflejan desempleo o debilidad laboral.

RELACIÓN DE CLUSTER y FACTORES

El gráfico muestra una clara separación entre los grupos. Esto indica que los clusters generados mediante aprendizaje no supervisado (k-means o Ward) están alineados con las dimensiones clave que explican la varianza de los datos, evidenciando patrones estructurales diferenciados entre países según su desarrollo económico y estructura productiva.

Clusters:

  • Cluster 1: Países con bajos niveles en ambos factores. Probablemente con menor desarrollo humano, baja productividad y poca apertura económica.

  • Cluster 2: Países con alto desarrollo humano y productividad, aunque con distintas combinaciones de estructura productiva.

  • Cluster 3: Pocos países, pero notablemente distintos a los otros grupos, con valores extremos (probablemente atípicos o economías muy particulares).

Este gráfico confirma que existe una correlación positiva entre desarrollo humano (Factor 1) e integración comercial e industrial (Factor 3). El Cluster 2 sobresale como el grupo más desarrollado y competitivo, mientras que el Cluster 1 enfrenta desigualdades estructurales. Por su parte, el Cluster 3, aunque menos representado, destaca por su singular combinación de niveles.

  • Factor 1: Desarrollo Humano y Productividad Económica Cubre aspectos como PIB per cápita, HDI, esperanza de vida, productividad laboral y capital humano.

  • Factor 3: Comercio, Industria y Empleo Compila variables como comercio total (% del PIB), empleo industrial y tasa de desempleo.

CLUSTERS

  • Cluster 1: Ubicado principalmente en la parte izquierda del gráfico (valores bajos en Factor 1), lo que indica menor desarrollo humano y productividad. Sus valores en el eje vertical (Factor 3) son bajos o apenas positivos, lo que refleja una débil integración comercial e industrial, propia de países con economías poco diversificadas que enfrentan desafíos en términos de empleo y competitividad comercial.

  • Cluster 2: Situado en la derecha, con valores positivos altos en Factor 1, evidenciando alto desarrollo humano y productividad. También presenta altos valores en el Factor 3, lo que indica una buena participación en el comercio, una presencia industrial activa y mayor estabilidad laboral; esto corresponde a países desarrollados con economías diversificadas y fuertes capacidades productivas y comerciales.

  • Cluster 3: Aunque pocos, están en la parte izquierda superior, indicando valores bajos en Factor 1 pero altos en Factor 3. Pueden representar países con baja productividad y bienestar, pero con cierta actividad industrial o comercial atípica, como economías refugiadas o estados con recursos específicos.

Este gráfico refuerza la idea de que el Cluster 2 reune a países más integrados y desarrollados a nivel productivo y comercial, mientras que el Cluster 1 representa economías intermedias o con desafíos estructurales. Por su parte, el Cluster 3 sigue mostrándose como un grupo atípico o con estructuras muy distintas del resto.

El análisis conjunto de los Factores 2 y 3 permite observar cómo los aspectos productivos y comerciales se combinan para diferenciar aún más a los países, más allá del desarrollo humano.

  • Factor 2: “Estructura Productiva y Apertura Comercial”, Representa variables como participación del empleo en industria, consumo material, energía e indicadores de comercio exterior.

  • Factor 3: “Comercio, Industria y Empleo” Refleja comercio de servicios, inversión extranjera directa, tasas de desempleo y empleo sectorial.

CLUSTERS

  • Cluster 1: Posicionado con valores ligeramente positivos a negativos en ambos factores, lo que indica una estructura productiva media o baja, con moderada apertura comercial y limitada presencia en comercio e industria; esto refleja países en transición o en vías de desarrollo con economías poco sofisticadas.

  • Cluster 2: Se ubica principalmente en el cuadrante positivo de ambos ejes, lo que sugiere una mayor diversificación productiva, mayor uso de recursos y fuerte participación comercial e industrial; corresponden a economías desarrolladas o emergentes con estrategias de apertura internacional bien definidas.

  • Cluster 3: Aunque es el más pequeño, se encuentra en las zonas extremas negativas o fuera de los grupos compactos, lo que indica una desalineación estructural: países con desarticulación en el sistema productivo, bajos niveles de inversión o empleo formal, o condiciones socioeconómicas particulares.

Este gráfico muestra un biplot del Análisis de Componentes Principales (PCA), que ayuda a visualizar al mismo tiempo las observaciones (los países, que aparecen como puntos grises numerados) y las variables originales (que se representan con flechas) proyectadas sobre los dos primeros componentes principales. El primer componente (Dim1), que explica el 45.3% de la variabilidad total, se puede interpretar como un eje de desarrollo humano y económico: a la izquierda se encuentran los países con un alto PIB per cápita, capital humano, esperanza de vida y empleo en servicios (como Luxemburgo, Irlanda, Suiza, Noruega y Países Bajos), mientras que a la derecha están los países que enfrentan mayores niveles de pobreza, un alto empleo agrícola y un menor desarrollo (como Pakistán, Ecuador e Indonesia). El segundo componente (Dim2), que añade un 14.8% más, refleja diferencias en la estructura productiva y la eficiencia: hacia arriba se sitúan los países con mayor intensidad energética, empleo industrial y consumo de recursos (como China e India), mientras que hacia abajo se encuentran variables relacionadas con la apertura comercial, la inversión extranjera directa (FDI) y el comercio de servicios, lo que indica economías más orientadas al intercambio global. Las flechas muestran la dirección de mayor variación de cada variable, su longitud indica su importancia en los componentes, y el ángulo entre ellas ayuda a identificar correlaciones: por ejemplo, variables como el IDH, capital humano, productividad y empleo en servicios están muy correlacionadas entre sí, mientras que tienen una relación negativa con variables como la pobreza extrema o el empleo agrícola. Este biplot hace más fácil interpretar los patrones comunes entre países, agrupándolos según sus características macroeconómicas y sociales.

CONCLUSIÓN

Este análisis se realizó en datos del 2018 mediante métodos de aprendizaje no supervisado y se aplicó a variables socioeconómicas. Esto nos permitió identificar patrones importantes y estructuras subyacentes en la información disponible. Además, la segmentación de datos nos permitió formar grupos con características socioeconómicas similares, lo que nos permitió comprender mejor las variables estudiadas.

Básicamente aplicar estas técnicas nos ayudó a simplificar toda la información, encontrar patrones en los datos y agrupar a los países según su nivel de desarrollo, productividad, comercio y bienestar. Gracias a este análisis, pudimos ver que hay ciertos factores “ocultos” que explican gran parte de las diferencias entre países. Además, los grupos que se formaron tienen bastante coherencia interna, lo que quiere decir que los países dentro de cada grupo comparten características similares. También se notan diferencias claras entre los grupos, mostrando que sí hay brechas importantes a nivel global. Otro punto clave fue que, al estandarizar los datos y visualizarlos, se pudieron identificar desigualdades muy marcadas, por ejemplo, en pobreza extrema o en el PIB per cápita. En resumen, el aprendizaje no supervisado nos permitió explorar los datos de forma objetiva, sin meter mano con juicios previos, y nos dio una mejor idea de cómo se comportan los países a nivel global. Todo esto es muy útil para entender el panorama del desarrollo y para tomar decisiones más informadas.