Introducción

A diferencia del aprendizaje supervisado, en el no supervisado no contamos con clases de salida esperadas; en lugar de eso, trabajamos únicamente con el conjunto de datos buscando patrones. Este enfoque resulta particularmente útil cuando no tenemos etiquetas o categorías predefinidas, y nos permite descubrir relaciones en los datos.

Para el análisis de los datos, se emplearon técnicas como K-means y el análisis de componentes principales (ACP). Estas herramientas permiten encontrar patrones en los datos y agruparlos según sus similitudes, lo que facilita la comprensión y la organización de la información.

Descripción de variables

Para este analisis se utilizó una base de datos proporcionada por la Organización para la Cooperación y el Desarrollo Económicos (OECD). Esta base de datos incluye información de 42 países y 29 variables socioeconómicas, siendo estas las siguientes:

  • Saldo de cuenta corriente (% del PIB): Es un registro de las transacciones internacionales de un país con el resto del mundo. La cuenta corriente incluye todas las transacciones que involucran valores económicos y ocurren entre entidades residentes y no residentes.

  • Tasa de cambio (moneda nacional por USD): Las tasas de cambio se definen como el precio de la moneda de un país en relación con la moneda de otro país. Este indicador se mide en términos de moneda nacional por dólar estadounidense.

  • Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Es el valor total de los bienes y servicios adquiridos en países extranjeros por una nación, medido en dólares estadounidenses, utilizando los métodos contables estandarizados definidos en el marco de cuentas nacionales.

  • Comercio de bienes y servicios (volumen en USD): Es la transacción de bienes y servicios entre residentes y no residentes.

  • Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Es el valor total de los bienes y servicios ofrecidos en países extranjeros por una nación, medido en dólares estadounidenses, utilizando los métodos contables estandarizados definidos en el marco de cuentas nacionales.

  • Gasto en consumo final del gobierno (volumen): Es una medida del valor de los bienes y servicios adquiridos por el gobierno para satisfacer las necesidades de los individuos y las comunidades.

  • Gasto final en consumo privado (volumen): Es la cantidad total de dinero gastado por los hogares y las instituciones sin fines de lucro al servicio de los hogares en bienes y servicios.

  • Exportaciones netas, contribuciones a los cambios en el PIB real: Las exportaciones netas de un país son la diferencia entre el valor de sus exportaciones y el valor de sus importaciones durante un período específico, generalmente un año.

  • PIB nominal (precios de mercado): Es el valor total de todos los bienes y servicios producidos en un país durante un período de tiempo, medido a precios actuales de mercado.

  • PIB real (precios de mercado): Es el valor total de todos los bienes y servicios producidos en un país durante un período de tiempo específico, menos el valor de los bienes y servicios utilizados para crearlos, medido a precios actuales de mercado.

  • PIB medido en dólares, a paridades de poder adquisitivo constantes (PPP): Es una medida del PIB que se ha convertido a dólares internacionales utilizando tasas de PPP. El factor de conversión PPP es un número que indica cuántas unidades de la moneda de un país se necesitan para comprar la misma cantidad de bienes y servicios.

  • FBC fijo (total): Se define como la adquisición de activos producidos (incluidos activos de segunda mano), incluida la producción de dichos activos por parte de los productores para su propio uso, menos las enajenaciones.

  • Crecimiento del PIB real (volumen): Es una medida de la actividad económica de un país a lo largo del tiempo y cómo se compara con otras economías.

  • Crecimiento del PIB nominal: Es una medida de la producción económica de un país, y el crecimiento económico es el aumento del tamaño de una economía a lo largo del tiempo. El PIB nominal es una medida del PIB que utiliza precios corrientes, mientras que el PIB real es una medida que tiene en cuenta los cambios de precios.

  • Crecimiento deflactor del PIB: Es un factor estadístico que ajusta el PIB de precios nominales a precios constantes teniendo en cuenta la inflación.

  • Crecimiento del FBC fijo (total): El valor total de las adquisiciones de activos fijos por parte de un productor durante un período contable, menos el valor de las enajenaciones, más ciertas adiciones al valor de los activos no producidos.

  • Crecimiento del gasto final en consumo privado: Es el monto total gastado por los hogares y las instituciones sin fines de lucro al servicio de los hogares (ISFLSH) en bienes y servicios, incluyendo gasto en bienes duraderos y no duraderos, excepto terrenos, gasto en servicios, alquiler de viviendas ocupadas por sus propietarios, consumo de producción por cuenta propia, pagos en sueldos.

  • Crecimiento del gasto en consumo final del gobierno: La cantidad total de dinero que un gobierno gasta en bienes y servicios para satisfacer las necesidades de individuos y comunidades. Se muestra su crecimiento a partir de un tiempo especifico.

  • Exportaciones e importaciones de bienes y servicios, deflactor (base de cuentas nacionales): Los deflactores se utilizan para convertir el valor de las exportaciones e importaciones de bienes y servicios en volumen.

  • deflactor del PIB (precios de mercado): Es una medida de los cambios de precios para el PIB total, o el valor monetario de todos los bienes y servicios producidos medido a precios actuales del mercado.

  • Tasa de desempleo: Es el porcentaje de personas en la fuerza laboral que están desempleadas pero que pueden y desean trabajar.

  • Empleo total (En base a la encuesta de fuerza laboral): Es una encuesta de hogares que proporciona estimaciones del empleo y el desempleo. La LFS es la principal fuente de datos para las estadísticas nacionales oficiales sobre empleo, desempleo y fuerza laboral.

  • Fuerza laboral: La fuerza laboral, o población actualmente activa, comprende todas las personas que cumplen los requisitos para su inclusión entre los empleados o los desempleados.

  • Tasa de interés a corto plazo: Son las tasas a las que se efectúan préstamos a corto plazo entre instituciones financieras o la tasa a la que se emiten o negocian títulos gubernamentales a corto plazo en el mercado, estas tasas son generalmente promedios de tarifas diarias, medidas como porcentaje.

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

x11

x12

x13

x14

x15

x16

x17

x18

x19

x20

x21

x22

x23

x24

x25

x26

x27

x28

x29

Metodología

Para poder aplicar este modelo se comenzó estandarizando los datos, esto debido a la sensibilidad que presenta dicho modelo a las escalas de las variables.

Seguidamente se buscó plantear un número de clusters, esto a través del método del codo, el cual consiste en una técnica visual que ayuda a conocer el número óptimo de estos. Para dicho método se comienza creando un vector en donde su tamaño, representa el número de clusters a evaluar, luego se emplea un bucle que recorra dichos valores y ejecute el algoritmo de K-means, finalmente al graficar los datos resultantes se debe fijar la vista en el “codo” que se muestra, el cual indica el número de clusters ideal.

Luego de esto, se aplicó el modelo K-means, segmentando de esta manera los datos en clusters y visualizando a su vez las distribuciones de los datos en los clusters, en este caso se pudieron notar datos atípicos, así que se planteó seguir alguna otra alternativa.

Como segunda fase, se inició seleccionando solo las columnas numéricas de la base de datos y luego se implementó un gráfico de sedimentación, que en el contexto del ACP, sirve para conocer el número de factores ideales a retener; el ACP es un técnica que se usa para reducir la dimensionalidad pero preservando gran parte de la variabilidad, además, es útil para simplificar los datos y detectar patrones.

Para una mejor visualización, se generó un gráfico de dispersión que mostró la forma en que los individuos se distribuyeron en relación a los factores principales obtenidos anteriormente, a pesar de encontrar relaciones entre los individuos, sigue persistiendo la problemática a causa de los datos atípicos.

Como otro camino y con el objetivo de ver el modelo desde otro punto de vista, se realizó un análisis de agrupamiento jerárquico, para luego visualizar los grupos resultantes en un dendrograma estilizado. Dando nuevamente el resultado de los datos atípicos.

En última instancia se retomó las aplicaciones del inicio, realizando el ACP junto al agrupamiento con base en el número de clusters identificados anteriormente, buscando una mayor facilidad para interpretar la estructura y las relaciones presentes.

Análisis Descriptivo

Devaluación de las monedas

En el análisis de la variable “Tasa de Cambio Moneda Nacional a USD,” vemos que los países con mayores devaluaciones, como Argentina e India, suelen ser economías emergentes, mientras que aquellos con menor devaluación, como Suiza, Reino Unido y la zona Euro, son economías desarrolladas. Esto sugiere una conexión entre el nivel de desarrollo económico y la estabilidad monetaria frente al dólar.

Es especialmente notable el caso del peso argentino, que destaca como la moneda más devaluada. Esta situación es el resultado de factores como la inflación, el déficit fiscal, el endeudamiento y la falta de confianza en la economía y el gobierno. Esta combinación ha llevado a un ciclo de devaluación constante que hace aún más difícil lograr la estabilidad económica en Argentina.

Exportaciones vs Importaciones

La gráfica de exportaciones e importaciones revela un desbalance comercial. Cuando las importaciones superan a las exportaciones, lo que señala es una economía dependiente de bienes externos. En el caso de Colombia, aunque tiene un nivel de exportaciones similar al de Japón, su inclinación hacia las importaciones sugiere una fuerte dependencia de productos extranjeros, tal vez por falta de producción en algunos sectores o alta demanda de bienes importados. Por otro lado, países como Japón y Corea, que muestran altos valores en estas variables, tienden a tener economías grandes o están muy bien conectados en la cadena de suministro global.

Empleo total

El gráfico muestra a Estados Unidos como líder en empleo total, gracias a su gran población económicamente activa y una economía fuerte. En cambio, economías emergentes como Argentina y Brasil también tienen altos niveles de empleo, probablemente impulsados por sectores informales y poblaciones grandes, aunque con menor industrialización. Japón y Alemania sobresalen con altos niveles de empleo relativo, necesarios para sus economías industriales y tecnológicas, a pesar de tener poblaciones menores. En Europa, países como Suecia y Suiza manejan economías avanzadas y productivas sin depender de una gran fuerza laboral, mostrando cómo el empleo se distribuye de forma desigual entre países grandes y pequeños.

Mapa del saldo de cuenta corriente en los paises

Países como Estados Unidos, con un PIB bastante alto, muestran un déficit en cuenta corriente, lo que indica que dependen de importaciones o financiamiento externo para mantener su consumo y producción. Por otro lado, países desarrollados como Noruega, aunque tienen un PIB menor, registran un superávit en cuenta corriente, lo que sugiere una economía más equilibrada y sostenida por exportaciones de alto valor. En cuanto a países en desarrollo como Argentina y Brasil, sus déficits en cuenta corriente y PIB de volumen intermedio reflejan una dependencia del capital extranjero o del endeudamiento para financiar su crecimiento.

Mapa de precios del mercado por volumen en los paises

Países como Estados Unidos, con un PIB bastante alto, muestran un déficit en cuenta corriente, lo que indica que dependen de importaciones o financiamiento externo para mantener su consumo y producción. Por otro lado, países desarrollados como Noruega, aunque tienen un PIB menor, registran un superávit en cuenta corriente, lo que sugiere una economía más equilibrada y sostenida por exportaciones de alto valor. En cuanto a países en desarrollo como Argentina y Brasil, sus déficits en cuenta corriente y PIB de volumen intermedio reflejan una dependencia del capital extranjero o del endeudamiento para financiar su crecimiento.

Gasto de consumo del gobierno vs privado

El gráfico muestra que las economías con mayor PIB, como Corea del Sur y Colombia, tienden a tener un gasto de consumo más alto, especialmente en el sector privado, mientras que países con economías más pequeñas presentan menores niveles de gasto tanto privado como gubernamental, reflejando su menor dependencia del consumo en su crecimiento económico.Esto podría indicar que en países con economías más desarrolladas, el consumo privado es un motor más significativo del crecimiento económico.

Comercio de bienes y servicios

En el gráfico de la variable “Bienes y Servicios en USD,” observamos una clara diferenciación entre países con altos y bajos volúmenes de comercio. Por un lado, naciones como Estados Unidos, Alemania y Japón presentan economías grandes y diversificadas, lo que les permite alcanzar niveles elevados de intercambio de bienes y servicios a nivel internacional. En contraste, países con volúmenes más bajos, como Islandia, Estonia y Eslovenia, tienden a contar con economías de menor tamaño o con un enfoque en el mercado interno, lo que limita su comercio exterior.

Tasa de interes a corto plazo

Algunos países europeos tienen una tasa de interés negativa, lo que sugiere una política monetaria para estimular el crecimiento económico. En contraste, países con tasas positivas, como Turquía y Brasil, buscan controlar la inflación y estabilizar sus economías mediante políticas restrictivas.

Matriz de correlación

¿Cómo analizar este problema?

Para realizar un análisis óptimo de nuestro problema, decidimos abordarlo en varias etapas. Primero, aplicamos el modelo K-means para identificar el comportamiento de los clústeres en relación con los datos. Luego, realizamos un análisis más detallado utilizando el Análisis de Componentes Principales (ACP) para obtener una comprensión más profunda de la estructura de los datos.

Fase 1: Módelo k - means

El módelo de agrupamiento k - means organiza los datos en clústeres basándose en su cercanía a un centroíde, siendo una herramienta sencilla y efectiva para analizar y presentar información. Sin embargo, este módelo presenta una limitación importante, su sensibilidad a datos atípicos. A continuación se presentan los resultados obtenidos:

En primer lugar, se procede a analizar el número óptimo de clústeres mediante el método del codo (Elbow Method). Este paso se realiza, con el objetivo de determinar la cantidad de clústeres que mejor representa la estructura de los datos. En este caso la selección fue de 4, esto debido a que después de este punto, el WSS (suma de las distancia dentro de los clústeres) sigue disminuyendo, pero con menor intensidad, lo que sugiere que seguir implementando más clústeres no mejora mucho la cohesión interna de los grupos.

En segundo lugar, se proceden a analizar los resultados del módelo con el objetivo de determinar su desempeño, aquí se identificó lo mencionado con anterioridad, una falencia debido a los datos atípicos (Corea, Argentina), lo que sugiere que sería conveniente explorar otra alternativa.

Fase 2: Modelo ACP

En primer lugar para la segunda fase, se utiliza un Scree plot (o gráfico de sedimentación) para analizar los componentes principales (PCA) y determinar el número óptimo de factores a retener.

Al observarlo vemos que las tres primeras dimensiones abarcan la mayoría de los datos que tenemos en el problema, después agregar más factores (dimensiones) no aporta mucho al módelo, lo que en pocas palabras sugiere que el óptimo está entre 3 ó 4 dimensiones.

Al observar el comportamiento de las variables, se evidencia que algunas tienen una mayor variabilidad que otras, por lo que que se sugiere la normalización antes de aplicar técnicas de reducción de dimensionalidad.

Cuando se analizan los individuos del módelo se pueden evidenciar algunas cosas:

  1. Los individuos cercanos al origen sugieren similitudes en sus características, indicando que son más parecidos entre sí.

  2. Los individuos alejados (outliers) presentan características distintivas, lo que los convierte en datos atípicos.

  3. Estas dos primeras dimensiones explican el 47,3 % de la variabilidad total del módelo, representando una cantidad significativa de datos.

En general, el análisis sugiere que el modelo logra captar similitudes y diferencias entre los individuos, sin embargo, los datos atípicos siguen siendo una problematica.

A continuación, se implementa un diagrama de sectores para analizar la influencia y el aporte de las variables a las dos primeras dimensiones. Este diagrama revela que las variables con mayor influencia son x6, x7, x9 y x10.

Este dendrograma representa el agrupamiento jerárquico de las 29 variables, donde el eje vertical muestra la distancia entre ellas, y las líneas horizontales indican uniones de grupos, siendo las uniones con mayor altura menos similares entre si.

En este caso, observamos que existen variables con alta similitud entre sí, pero también se identifican datos atípicos que generan conflictos al agrupar.

En el gráfico se observan claramente los cuatro clusters, los cuales representan grupos de elementos que, en función de las características que comparten y de las relaciones entre ellas, se agrupan de manera natural. Cada grupo se ubica en una sección específica del mapa, lo que permite identificar con qué dimensión están más relacionados y qué nivel de aporte tiene cada grupo respecto a cada dimensión.

Para este gráfico se establecieron dos dimensiones para cada eje, para el eje x se estableció la dimensión “xx”, y para el eje y, la dimensión “xx”, ya con esta información clara, se puede proceder analizar cada cluster y que representa para la gráfica.

Al finalizar esta fase, podemos ver que la problemática persiste, pero surge una reflexión: ¿realmente todos los problemas de la vida cotidiana tienen soluciones perfectas, o solo los queremos ver de esta manera? Con esto, queremos sugerir que los datos atípicos podrían ser simplemente eso, datos atípicos, y no necesariamente un problema, si no algo diferente. En un contexto real, quizá lo único que podemos hacer es analizarlos más a detalle…

Fase 3: Posible solución

Contradiciendo lo mencionado con anterioridad y sin entrar en detalle de los pasos seguidos a lo largo del informe, se podría encontrar una “solución”: eliminar variables, países o, en su caso, un conjunto de ambos. Esto podría mejorar el impacto de los resultados, sin embargo, ¿es realmente esta la solución?, ¿En un problema real sería tan sencillo como decirle al cliente que debemos eliminar los datos porque complican el trabajo…? Dejando de lado estas dudas, es importante observar el impacto que esta decisión podría tener:

Al eliminar un país (Argentina) y 6 variables (X6, X7, X9, X10, X13, X14) podemos obtener una visualización de clústeres más definida y aumentar el volumen de datos representados por las primeras dos dimensiones, sin embargo, implementar esta estrategía no nos permite eliminar los datos atípicos. Recurrir a soluciones como eliminar variables, en este caso, puede convertirse en un camino interminable en lo que lo único que logramos es debilitar el módelo.

Conclusiones

  • Los modelos utilizados en el aprendizaje no supervisado, tales como el análisis de conglomerados por k-means y el análisis de componentes principales (ACP), son sensibles a la presencia de datos atípicos. Estos valores pueden distorsionar los resultados y reducir la efectividad del mismo.

  • Corea, Turquía, Estados Unidos y Argentina, fueron los países que en algunas de sus variables presentaron datos fuera del rango promedio, por lo que sus valores externos se presentaban en cada diagrama muy dispersos, estos resultados se atribuyen a la situación económica tanto interna como externa de cada uno.

  • Eliminar el objeto de estudio que genera conflicto en la mayoría de situaciones de la vida cotidiana no siempre es la solución óptima, una de las alternativas es conocer el contexto y explicar el por qué ocurre, esto puede darle más claridad a los resultados de la investigación.

  • Los datos atípicos no deben ser considerados errores, si no como valores que están significativamente por encima/debajo de la media del conjunto de datos, generando una discrepancia y produciendo un conflicto con los datos que sí son similares entre si.

  • Aunque los clústeres ofrecen una visión útil y estructurada de los datos, su desempeño puede verse comprometido por ciertas falencias, entre las cuales podemos destacar: Los datos atípicos y la falta de estandarización de los datos.