Aprendizaje no Supervisado

INTRODUCCIÓN

En este trabajo realizamos un análisis de un conjunto de datos económicos que abarcan 42 países y 29 variables, las cuales son las siguientes:

  • X1: Saldo en cuenta corriente como porcentaje del PIB: Esta variable muestra la relación entre la balanza de cuenta corriente de un país y su PIB. La cuenta corriente mide la diferencia entre los ingresos y pagos de bienes, servicios, ingresos y transferencias. Un valor positivo indica un superávit y un valor negativo refleja un déficit.

  • X2: Tipo de cambio, moneda nacional por USD: Esta variable muestra el valor de la moneda nacional en dólares estadounidenses. Es un indicador clave para entender la competitividad de un país en el comercio internacional y su posición en los mercados cambiarios.

  • X3: Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Es el valor total de bienes y servicios importados en términos de volumen, ajustado por las cuentas nacionales. Ayuda a analizar la dependencia de un país en bienes y servicios extranjeros.

  • X4: Comercio de bienes y servicios, volumen en USD: Es una medida general del intercambio de bienes y servicios de un país, tanto importaciones como exportaciones expresadas en volumen. Es un indicador de la integración económica global de un país.

  • X5: Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Representa el valor total de bienes y servicios exportados en volumen, ajustado por las cuentas nacionales, lo que demuestra la capacidad de un país para vender sus productos en el exterior.

  • X6: Gasto final de consumo del gobierno, volumen: Mide el gasto total del gobierno en bienes y servicios para el consumo final en términos de volumen. Indica la inversión del gobierno en servicios públicos y su impacto en la economía.

  • X7: Gasto final de consumo privado, volumen: Esta variable indica el gasto total de los hogares en bienes y servicios para el consumo final, medido en volumen. Es un indicador fundamental de la demanda interna en la economía.

  • X8: Exportaciones netas, contribución a los cambios en el PIB real: Esta variable muestra cómo la diferencia entre exportaciones e importaciones afecta las variaciones en el PIB real. Es importante para entender el impacto del comercio exterior en el crecimiento económico.

  • X9: Producto Interno Bruto, valor nominal, precios de mercado: Es la medida del valor total de todos los bienes y servicios producidos en un país, teniendo en cuenta los precios de mercado actuales. En esta variable podemos ver reflejado el tamaño de la economía en términos monetarios sin ajustes por inflación.

  • X10: Producto Interno Bruto, volumen, precios de mercado: El PIB ajustado por inflación, medido en volumen a precios constantes, nos permite comparar la producción real de bienes y servicios en diferentes periodos sin el efecto de la inflación.

  • X11: Producto Interno Bruto, volumen en USD, a paridades de poder adquisitivo constantes: Esta variable mide el PIB en USD, ajustado por las paridades de poder adquisitivo (PPA) constantes, lo cual permite comparar internacionalmente considerando las diferencias en los niveles de precios entre países.

  • X12: Formación bruta de capital fijo, total, volumen: Representa la inversión en activos fijos, como infraestructuras, maquinaria y construcciones, medido en volumen. Es un indicador del gasto en inversión productiva.

  • X13: Importaciones de bienes y servicios, volumen (base de cuentas nacionales): Esta variable indica el valor total de importaciones ajustado en volumen por cuentas nacionales.

  • X14: Exportaciones de bienes y servicios, volumen (base de cuentas nacionales): Esta variable muestra el valor total de exportaciones ajustado en volumen por cuentas nacionales.

  • X15: Exportaciones de bienes y servicios, volumen, crecimiento (base de cuentas nacionales): Esta variable mide el crecimiento del volumen de exportaciones año tras año, ajustado por cuentas nacionales.

  • X16: Importaciones de bienes y servicios, volumen, crecimiento (base de cuentas nacionales): Esta variable mide el crecimiento del volumen de importaciones año tras año, ajustado por cuentas nacionales. Indica la evolución de la demanda por productos extranjeros.

  • X17: Producto Interno Bruto, volumen, crecimiento: Refleja el crecimiento del PIB en términos reales (ajustado por inflación). Es un indicador importante del crecimiento económico.

  • X18: Producto Interno Bruto, valor nominal, crecimiento: Mide la tasa de crecimiento del PIB en términos nominales, sin ajustar por inflación. Indica cambios en el valor económico a precios actuales.

  • X19: Producto Interno Bruto, precios de mercado, deflactor, crecimiento: El crecimiento del deflactor del PIB refleja cómo han cambiado los precios en toda la economía. Es una medida de la inflación general en el país.

  • X20: Formación bruta de capital fijo, total, volumen, crecimiento: Mide la tasa de crecimiento de la inversión en activos fijos en términos reales, reflejando la dinámica de la inversión productiva del país.

  • X21: Gasto final de consumo privado, volumen, crecimiento: Representa la tasa de crecimiento en el consumo de los hogares, ajustado por inflación. Este es un indicador del poder adquisitivo y la demanda de los consumidores.

  • X22: Gasto final de consumo del gobierno, volumen, crecimiento: Mide la tasa de crecimiento en el consumo del gobierno en términos reales, reflejando cómo las decisiones gubernamentales afectan la economía a través del gasto público.

  • X23: Exportaciones de bienes y servicios, deflactor (base de cuentas nacionales): Mide los cambios de precios específicos en las exportaciones de bienes y servicios. Este es un indicador de la evolución de los precios de los productos exportados.

  • X24: Importaciones de bienes y servicios, deflactor (base de cuentas nacionales): Indica los cambios de precios específicos en las importaciones de bienes y servicios. Representa la evolución de los precios de los productos importados.

  • X25: Producto Interno Bruto, precios de mercado, deflactor: El deflactor del PIB es un índice que mide el nivel general de precios de todos los bienes y servicios producidos en la economía. Esta es una medida de la inflación o deflación.

  • X26: Tasa de desempleo: Indica la proporción de la población activa que está desempleada. Es un indicador importante del mercado laboral y la salud económica.

  • X27: Empleo total (base de encuesta de fuerza laboral): Mide el número total de personas empleadas según encuestas de la fuerza laboral. Gracias a esto podemos determinar la capacidad del mercado de trabajo.

  • X28: Fuerza laboral: Representa el total de personas en edad de trabajar que están disponibles para trabajar, incluyendo tanto a los empleados como a los desempleados.

  • X29: Tasa de interés a corto plazo: Es la tasa de interés aplicada a préstamos o inversiones a corto plazo. Es un indicador importante para la política monetaria y el costo del dinero en el mercado financiero.

El objetivo principal de este análisis es agrupar los países en función de comportamientos y características comunes, aplicando técnicas de Aprendizaje No Supervisado. A través del uso de algoritmos de clustering, como K-means y el agrupamiento jerárquico, buscamos identificar subgrupos de países con características similares. Esta segmentación permite una comprensión más profunda de las relaciones entre los países y facilita la identificación de tendencias y patrones dentro de los datos.

Además de la implementación del Analisis de Componentes principales (PCA) para reducir la dimensión del conjunto de datos, así haciendo más óptima su comprensión y visualización, el PCA permite simplificar las relaciones entre las variables resaltando las características más relevantes de cada país, siendo estos nuestros factores.

Los factores son los componentes principales que resultan del análisis y que explican la mayor parte de la varianza o información contenida en las variables originales del conjunto de datos. Cada factor es una combinación lineal de las variables originales, y su función principal es representar las principales características o patrones de los datos en un espacio de menor dimensión.

Cuando realizamos PCA, estamos transformando las 29 variables originales (en este caso, las variables económicas de los países) en un número menor de componentes principales (factores que son la combinación de variables), que explican de manera más eficiente la variabilidad de los datos.

Gracias a este estudio podemos evidenciar, comparar y clasificar las similitudes económicas entre los países al igual que sus diferencias, dándonos un mayor entendimiento a los distintos comportamientos económicos que existen simultáneamente a nivel global.

METODOLOGÍA

Para la realización de este proyecto se empleó el Aprendizaje No Supervisado para analizar una base de datos compuesta por 42 países y 29 variables. El propósito principal es agrupar estos países en función de patrones y comportamientos comunes, permitiéndonos identificar relaciones y tendencias en estas variables y comprender mejor el comportamiento conjunto de los países.

En este contexto, estamos interesados en encontrar subgrupos homogéneos de países que muestren características similares, y esto se logra a través de la interpretación conjunta de nuestras variables. El clustering o agrupamiento es una técnica fundamental en el aprendizaje no supervisado, ya que permite descubrir estos grupos homogéneos dentro de los datos, organizándolos en función de la distancia, es decir, según qué tan cerca o lejos se encuentran los países entre sí en términos de sus características compartidas.

Para este proyecto, se utilizaron los algoritmos de agrupamiento más comunes:

  • K-medias (K-means). Este método agrupa los datos en “k” subgrupos o clusters, donde “K” representa el número de grupos deseados y se define antes de ejecutar el modelo. Cada país se asigna al grupo cuyo “centroide” esté más cercano, lo que minimiza la variación dentro de cada grupo.

  • Agrupamiento Jerárquico: A diferencia de k-medias, el agrupamiento jerárquico no requiere definir el número de grupos de antemano. Este método crea una estructura jerárquica de grupos, desde observaciones individuales hasta una agrupación general, y permite visualizar la relación entre países en distintos niveles de similitud mediante un dendrograma. Este proceso facilita la identificación de niveles jerárquicos de agrupamiento en función de la cercanía entre observaciones.

  • Análisis de Componentes Principales (ACP): Aunque no es un método de clustering en sí, el ACP facilita la reducción de la dimensionalidad de los datos. Con 29 variables, el ACP permite transformar estas en un conjunto de componentes principales que capturan la mayor variabilidad, simplificando la estructura de los datos y ayudando a visualizar los agrupamientos. Esto permite obtener una representación más clara y simplificada del comportamiento de los países, facilitando el proceso de agrupamiento.

A lo largo del proyecto, se aplicaron estos métodos de agrupamiento para explorar y describir las similitudes y diferencias entre países, logrando identificar subgrupos de interés que reflejan comportamientos comunes. Se explicará más detalladamente todo el proceso que se llevó a cabo para la realización de este modelo.

1. Preparación de los datos:

El primer paso que nos corresponde es estandarizar nuestra base de datos con el fin de hacer la preparación de nuestra base de datos. Este proceso garantiza que todas las variables tengan la misma escala y se centren en valores comparables, lo cual es crucial para métodos de agrupamiento y reducción de dimensionalidad. En particular, modelos como k-means y el jerárquico, que calculan similitudes mediante distancias, son muy sensibles a las diferencias de escala entre variables. Sin estandarización, las variables con mayores magnitudes dominarían el análisis, desvirtuando los resultados y haciendo menos significativos los patrones encontrados. Asimismo, para técnicas de reducción de dimensionalidad como el Análisis de Componentes Principales (ACP), la estandarización es esencial para obtener factores que reflejen de manera justa la variabilidad en cada variable.

2. Aplicación de Métodos para segmentación de los datos:

  • Agrupamiento por K-means

Después de la preparación de los datos lo que se hizo encontrar el número óptimo de clusters para poder determinar con qué valor hemos de trabajar (K), existen dos métodos principales que se utilizan aquí para evaluar el número óptimo de clusters:

  • Método del codo (WSS)

Este método evalúa la variación total dentro de los clusters en función del número de clusters seleccionados. El gráfico resultante muestra la suma de las distancias cuadradas de cada punto a su centroide, donde estamos buscando el punto donde la disminución de WSS comienza a ser menos significativa, formando un “codo” en la curva. Este punto indica el número óptimo de clusters.

Este método evalúa la variación total dentro de los clusters en función del número de clusters seleccionados. La fórmula para calcular la “Inercia intracluster” (WSS) es:

En nuestros resultados podemos observar que entre 2 y 3 se puede encontrar nuestro K óptimo, este es necesario poder compararlo con otros métodos con el fin de poder trabajar con un número de cluster que pueda explicar nuestro modelo.

  • Método de la silueta

Este enfoque mide qué tan bien se ajustan los puntos dentro de sus respectivos clusters y qué tan distintos son entre sí. La anchura promedio de la silueta para cada número de clusters indica la calidad de la agrupación, se selecciona el número de clusters con el valor más alto de la métrica de silueta.

En los resultados obtenidos en la base de datos podemos ver que el óptimo número de clusters sigue estando entre 2 y 3 al igual que en método de WSS, lo cual nos indica que en el transcurso del desarrollo del proyecto hemos de determinar si se trabajan con una de estas soluciones brindadas o se escoge otro número de cluster que nos permita dar una solución a nuestro modelo.

Para la continuación del desarrollo del trabajo, se emplea el método de agrupamiento k-means para dividir el conjunto de datos en 2 grupos, permitiendo identificar patrones y similitudes entre observaciones. Primero, se asigna cada observación a uno de estos 2 clusters, lo que permite distinguir a qué grupo pertenece cada dato en función de sus características.

Para poder comprender un poco como se ve nuestro modelo decidimos de realizar una comparación de este mismo modelo de k-means ahora usando un total de 3 clusters.

Finalmente, se crea una visualización de los clusters, donde se representan los centros de cada grupo y la distribución de los datos dentro de cada cluster. El gráfico generado permite una interpretación visual del agrupamiento, mostrando tanto la dispersión de las observaciones como la posición de los centroides.

posteriormente se decidió trabajar con un número de cluster igual a 4 con el fin de poder encontrar unos datos más distribuidos a pesar de que los modelos de silueta y el método del codo nos indican que este valor de K debe de ser igual a 2 o 3; en la obtención de los resultados se mostrará y explicará el valor de los resultados obtenidos.

  • AGRUPAMIENTO JERÁRQUICO

En el análisis de agrupamiento jerárquico, se realizó un corte en el dendrograma a una altura de 13, lo que permitió identificar y segmentar los datos en 4 clusters, que era el número deseado. Este corte facilitó la separación adecuada de los grupos, cumpliendo con las expectativas del modelo y proporcionando una distribución coherente de las observaciones dentro de los clusters definidos.

El objetivo de visualizar el dendrograma es que este es una representación gráfica del proceso de agrupamiento jerárquico, donde cada fusión de observaciones o clusters se muestra como una rama que se une a una altura proporcional a la distancia entre ellos.En resumen, el método Ward permite formar clusters de manera jerárquica, visualizarlos y evaluar la calidad de la agrupación en función del número de clusters.

  • ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)

El Análisis de Componentes Principales (PCA) se utilizó para reducir la dimensionalidad del conjunto de datos, el cual contiene 29 variables económicas. Este método permite simplificar la estructura de los datos manteniendo la mayor variabilidad posible. Al reducir las variables a un conjunto de componentes principales, el PCA facilita la visualización e interpretación de los datos, ayudando a identificar patrones y agrupaciones subyacentes.

En primer lugar, se aplicó el PCA a 42 países y 29 variables. Las variables fueron estandarizadas para garantizar que cada una contribuye igualmente al análisis, sin que las diferencias en escalas influyeran en los resultados.

3. Descripción de variables y estadísticas descriptivas

En esta etapa, se realizó un análisis detallado de cada una de las variables para comprender su comportamiento y su posible impacto en el agrupamiento de los países. Primero, se identificaron las variables económicas clave y se calcularon sus estadísticas descriptivas, como la media, mediana, desviación estándar, valores mínimos y máximos. Esto permitió observar las tendencias generales y la dispersión de los datos, proporcionando una base para interpretar los resultados de agrupamiento.

Adicionalmente, se examinaron las correlaciones entre variables para identificar relaciones significativas que puedan influir en la agrupación. Las matrices de correlación revelan si ciertas variables están estrechamente relacionadas, lo cual es importante para la interpretación de los clusters y para la reducción de dimensionalidad mediante el Análisis de Componentes Principales (PCA).

En esta última etapa, se llevó a cabo un análisis e interpretación detallada de los resultados obtenidos a partir de los diferentes métodos aplicados en el modelo. El objetivo de este análisis fue extraer conclusiones claras y comprensibles que permitan abordar y resolver las problemáticas identificadas durante el desarrollo del trabajo.

Los resultados obtenidos mediante los distintos métodos de agrupamiento fueron analizados y evaluados de forma comparativa. Esto permitió determinar las similitudes y diferencias significativas entre las observaciones, así como identificar patrones consistentes que ayudaran a clasificar adecuadamente a los países en grupos representativos de sus características económicas. Este análisis comparativo también permitió validar la coherencia de los clusters obtenidos y verificar si los patrones identificados aportan valor en el contexto económico que estamos estudiando.

Además, se emplearon resultados descriptivos que respaldan las observaciones hechas, lo que facilitó una interpretación. Este enfoque descriptivo permitió profundizar en las características específicas de cada cluster, proporcionando una base sólida para discutir y contextualizar los patrones de similitud y diferencia entre los países.

Finalmente, estos resultados sirven como fundamento para aportar recomendaciones fundamentadas y relevantes. Estas recomendaciones están orientadas a facilitar decisiones estratégicas y ofrecer sugerencias prácticas que puedan aplicarse en contextos económicos similares, teniendo en cuenta la agrupación de los países en base a sus características económicas compartidas.

DESCRIPCIÓN DE LAS VARIABLES Y RESULTADOS DESCRIPTIVOS

Para lograr un análisis completo y detallado, es fundamental comprender ciertas variables clave que reflejan distintos aspectos relevantes en diversos contextos. A continuación, se presenta una descripción de estas variables, las cuales proporcionan una mejor visualización y comprensión del desempeño en áreas como el comercio, el consumo, la inversión y el empleo. Estos indicadores permiten observar tendencias y cambios significativos a lo largo del tiempo, brindando una visión integral para su análisis.

  • X1 Current account balance as a percentage of GDP (Saldo en cuenta corriente como porcentaje del PIB): Esta variable muestra la relación entre la balanza de cuenta corriente de un país y su PIB, la cuenta corriente mide la diferencia entre los ingresos y pagos de bienes, servicios, ingresos y transferencias, un valor positivo indica un superávit y un valor negativo refleja un déficit.

  • X2 Exchange rate, national currency per USD (Tipo de cambio, moneda nacional por USD): Esta variable muestra el valor de la moneda nacional en dólares estadounidenses, es un indicador clave para entender la competitividad de un país en el comercio internacional y su posición en los mercados cambiarios.

  • X3 Imports of goods and services, volume in USD (national accounts basis) Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Es el valor total de bienes y servicios importados en términos de volumen, ajustado por las cuentas nacionales, ayuda a analizar la dependencia de un país en bienes y servicios extranjeros.

  • X4 Goods and services trade, volume in USD (Comercio de bienes y servicios, volumen en USD): Es una medida general del intercambio de bienes y servicios de un país, tanto importaciones como exportaciones expresado en volumen, es un indicador de la integración económica global de un país.

  • X5 Exports of goods and services, volume in USD (national accounts basis) (Exportaciones de bienes y servicios, volumen en USD) (base de cuentas nacionales): Representa el valor total de bienes y servicios exportados en volumen, ajustado por las cuentas nacionales, lo que demuestra la capacidad de un país para vender sus productos en el exterior.

  • X6 Government final consumption expenditure, volumen (Gasto final de consumo del gobierno, volumen): Mide el gasto total del gobierno en bienes y servicios para el consumo final en términos de volumen, indica la inversión del gobierno en servicios públicos y su impacto en la economía.

  • X7 Private final consumption expenditure, volumen (Gasto final de consumo privado, volumen): Esta variable indica el gasto total de los hogares en bienes y servicios para el consumo final medido en volumen, es un indicador fundamental de la demanda interna en la economía.

  • X8 Net exports, contributions to changes in real GDP (Exportaciones netas, contribución a los cambios en el PIB real): Esta variable muestra cómo la diferencia entre exportaciones e importaciones afecta las variaciones en el PIB real, es importante para entender el impacto del comercio exterior en el crecimiento económico.

  • X9 Gross domestic product, nominal value, market prices (Producto Interno Bruto, valor nominal, precios de mercado): Es la medida del valor total de todos los bienes y servicios producidos en un país, teniendo en cuenta los precios de mercado actuales, en esta variable podemos ver reflejado el tamaño de la economía en términos monetarios sin ajustes por inflación.

  • X10 Gross domestic product, volume, market prices (Producto Interno Bruto, volumen, precios de mercado): El PIB ajustado por inflación, medido en volumen a precios constantes, nos permite comparar la producción real de bienes y servicios en diferentes periodos sin el efecto de la inflación.

  • X11 Gross domestic product, volume in USD, at constant purchasing power parities (Producto Interno Bruto, volumen en USD, a paridades de poder adquisitivo constantes): Esta variable mide el PIB en USD, ajustado por las paridades de poder adquisitivo (PPA) constantes, lo cual permite comparar internacionalmente considerando las diferencias en los niveles de precios entre países.

  • X12 Gross fixed capital formation, total, volumen (Formación bruta de capital fijo, total, volumen): Representa la inversión en activos fijos, como infraestructuras, maquinaria y construcciones, medido en volumen, es un indicador del gasto en inversión productiva.

  • X13 Imports of goods and services, volume (national accounts basis) (Importaciones de bienes y servicios, volumen (base de cuentas nacionales): Esta variable indica el valor total de importaciones ajustado en volumen por cuentas nacionales.

  • X14 Exports of goods and services, volume (national accounts basis) (Exportaciones de bienes y servicios, volumen (base de cuentas nacionales): Esta variable muestra el valor total de exportaciones ajustado en volumen por cuentas nacionales.

  • X15 Exports of goods and services, volume, growth (national accounts basis) (Exportaciones de bienes y servicios, volumen, crecimiento (base de cuentas nacionales): Esta variable mide el crecimiento del volumen de exportaciones año tras año ajustado por cuentas nacionales.

  • X16 Imports of goods and services, volume, growth (national accounts basis) (Importaciones de bienes y servicios, volumen, crecimiento (base de cuentas nacionales): Esta variable mide el crecimiento del volumen de importaciones año tras año, ajustado por cuentas nacionales indica la evolución de la demanda por productos extranjeros.

  • X17 Gross domestic product, volume, growth (Producto Interno Bruto, volumen, crecimiento): Refleja el crecimiento del PIB en términos reales (ajustado por inflación), es un indicador importante del crecimiento económico.

  • X18 Gross domestic product, nominal value, growth (Producto Interno Bruto, valor nominal, crecimiento): Mide la tasa de crecimiento del PIB en términos nominales, sin ajustar por inflación, indica cambios en el valor económico a precios actuales.

  • X19 Gross domestic product, market prices, deflator, growth (Producto Interno Bruto, precios de mercado, deflactor, crecimiento): El crecimiento del deflactor del PIB refleja cómo han cambiado los precios en toda la economía. Es una medida de la inflación general en el país.

  • X20 Gross fixed capital formation, total, volume, growth (Formación bruta de capital fijo, total, volumen, crecimiento): Mide la tasa de crecimiento de la inversión en activos fijos en términos reales, se ve reflejada la dinámica en la inversión productiva del país.

  • X21 Private final consumption expenditure, volume, growth (Gasto final de consumo privado, volumen, crecimiento): Representa la tasa de crecimiento en el consumo de los hogares, ajustado por inflación, este es un indicador del poder adquisitivo y la demanda de los consumidores.

  • X22 Government final consumption expenditure, volume, growth (Gasto final de consumo del gobierno, volumen, crecimiento): Mide la tasa de crecimiento en el consumo del gobierno en términos reales, se ve reflejado cómo las decisiones gubernamentales afectan la economía a través del gasto público.

  • X23 Exports of goods and services, deflator (national accounts basis) (Exportaciones de bienes y servicios, deflactor (base de cuentas nacionales): Mide los cambios de precios específicos en las exportaciones de bienes y servicios, este es un indicador de la evolución de los precios de los productos exportados.

  • X24 Imports of goods and services, deflator (national accounts basis) (Importaciones de bienes y servicios, deflactor (base de cuentas nacionales): Indica los cambios de precios específicos en las importaciones de bienes y servicios, representa la evolución de los precios de los productos importados.

  • X25 Gross domestic product, market prices, deflator (Producto Interno Bruto, precios de mercado, deflactor): El deflactor del PIB es un índice que mide el nivel general de precios de todos los bienes y servicios producidos en la economía, esta es una medida de la inflación o deflación.

  • X26 Unemployment rate (Tasa de desempleo): Indica la proporción de la población activa que está desempleada, es un indicador importante del mercado laboral y la salud económica. X27 Total employment (labour force survey basis) (Empleo total (base de encuesta de fuerza laboral): Mide el número total de personas empleadas según encuestas de la fuerza laboral, gracias a esto podemos determinar la capacidad del mercado de trabajo.

  • X28 Labour forcé (Fuerza laboral): Representa el total de personas en edad de trabajar que están disponibles para trabajar, incluyendo tanto a los empleados como a los desempleados.

  • X29 Short-term interest rate (Tasa de interés a corto plazo): Es la tasa de interés aplicada a préstamos o inversiones a corto plazo. Es un indicador importante para la política monetaria y el costo del dinero en el mercado financiero.

1. MATRIZ DE CORRELACIÓN

Matriz de Correlación de los Datos Estandarizados
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 x23 x24 x25 x26 x27 x28 x29
x1 1.00 0.00 0.05 0.11 0.19 0.03 -0.04 0.55 -0.01 0.01 -0.10 0.05 0.04 0.08 -0.07 -0.57 -0.19 -0.09 -0.04 -0.49 -0.42 -0.12 -0.01 -0.01 0.00 -0.12 -0.12 -0.12 -0.20
x2 0.00 1.00 -0.04 -0.05 -0.07 0.04 0.04 -0.12 0.08 0.05 -0.07 0.06 0.05 0.04 0.17 0.37 0.19 0.68 0.72 0.34 0.13 -0.06 0.76 0.76 0.76 0.07 0.38 0.38 0.25
x3 0.05 -0.04 1.00 0.99 0.96 0.07 0.05 0.04 0.06 0.07 0.93 0.08 0.06 0.08 -0.16 -0.15 -0.18 -0.17 -0.14 -0.15 -0.19 -0.13 -0.10 -0.10 -0.09 -0.18 0.66 0.63 -0.08
x4 0.11 -0.05 0.99 1.00 0.99 0.09 0.06 0.09 0.08 0.09 0.89 0.11 0.09 0.10 -0.16 -0.21 -0.20 -0.19 -0.16 -0.20 -0.24 -0.12 -0.11 -0.11 -0.10 -0.19 0.63 0.61 -0.09
x5 0.19 -0.07 0.96 0.99 1.00 0.12 0.08 0.16 0.10 0.11 0.82 0.13 0.11 0.13 -0.16 -0.27 -0.22 -0.21 -0.18 -0.25 -0.30 -0.11 -0.12 -0.12 -0.11 -0.21 0.58 0.56 -0.10
x6 0.03 0.04 0.07 0.09 0.12 1.00 0.97 -0.05 0.99 1.00 0.07 0.98 0.97 0.94 0.04 0.08 -0.07 -0.09 -0.08 -0.06 0.01 0.17 -0.05 -0.05 -0.05 -0.06 0.09 0.08 0.01
x7 -0.04 0.04 0.05 0.06 0.08 0.97 1.00 -0.10 0.99 0.98 0.05 0.93 0.92 0.86 0.05 0.17 0.02 -0.05 -0.07 -0.03 0.12 0.24 -0.05 -0.05 -0.05 -0.01 0.08 0.07 0.03
x8 0.55 -0.12 0.04 0.09 0.16 -0.05 -0.10 1.00 -0.08 -0.06 -0.03 -0.04 -0.04 -0.02 0.30 -0.63 0.28 0.01 -0.07 -0.70 -0.23 -0.11 -0.05 -0.03 -0.05 0.00 -0.09 -0.09 0.05
x9 -0.01 0.08 0.06 0.08 0.10 0.99 0.99 -0.08 1.00 1.00 0.04 0.97 0.97 0.92 0.06 0.15 -0.01 -0.04 -0.05 -0.03 0.07 0.21 -0.03 -0.03 -0.03 -0.03 0.08 0.07 0.03
x10 0.01 0.05 0.07 0.09 0.11 1.00 0.98 -0.06 1.00 1.00 0.06 0.99 0.98 0.95 0.04 0.10 -0.04 -0.08 -0.08 -0.05 0.04 0.18 -0.05 -0.05 -0.05 -0.05 0.08 0.07 0.02
x11 -0.10 -0.07 0.93 0.89 0.82 0.07 0.05 -0.03 0.04 0.06 1.00 0.06 0.04 0.04 -0.15 -0.09 -0.12 -0.06 -0.03 -0.05 -0.03 -0.19 -0.03 -0.03 -0.03 -0.07 0.77 0.75 0.04
x12 0.05 0.06 0.08 0.11 0.13 0.98 0.93 -0.04 0.97 0.99 0.06 1.00 1.00 0.98 0.04 0.06 -0.08 -0.09 -0.08 -0.06 -0.02 0.14 -0.05 -0.05 -0.04 -0.08 0.07 0.06 0.01
x13 0.04 0.05 0.06 0.09 0.11 0.97 0.92 -0.04 0.97 0.98 0.04 1.00 1.00 0.99 0.02 0.06 -0.06 -0.07 -0.07 -0.05 -0.01 0.15 -0.05 -0.05 -0.04 -0.08 0.05 0.04 0.01
x14 0.08 0.04 0.08 0.10 0.13 0.94 0.86 -0.02 0.92 0.95 0.04 0.98 0.99 1.00 0.01 0.00 -0.10 -0.09 -0.07 -0.06 -0.06 0.10 -0.04 -0.04 -0.04 -0.10 0.05 0.04 0.00
x15 -0.07 0.17 -0.16 -0.16 -0.16 0.04 0.05 0.30 0.06 0.04 -0.15 0.04 0.02 0.01 1.00 0.25 0.41 0.18 0.08 0.07 0.20 -0.35 -0.02 0.00 -0.02 0.18 -0.16 -0.15 0.28
x16 -0.57 0.37 -0.15 -0.21 -0.27 0.08 0.17 -0.63 0.15 0.10 -0.09 0.06 0.06 0.00 0.25 1.00 0.34 0.24 0.17 0.68 0.56 0.13 0.17 0.16 0.18 0.09 0.04 0.05 0.01
x17 -0.19 0.19 -0.18 -0.20 -0.22 -0.07 0.02 0.28 -0.01 -0.04 -0.12 -0.08 -0.06 -0.10 0.41 0.34 1.00 0.55 0.33 0.21 0.74 0.37 0.24 0.25 0.23 0.15 -0.01 0.00 0.28
x18 -0.09 0.68 -0.17 -0.19 -0.21 -0.09 -0.05 0.01 -0.04 -0.08 -0.06 -0.09 -0.07 -0.09 0.18 0.24 0.55 1.00 0.97 0.42 0.52 0.14 0.83 0.85 0.82 0.17 0.39 0.41 0.54
x19 -0.04 0.72 -0.14 -0.16 -0.18 -0.08 -0.07 -0.07 -0.05 -0.08 -0.03 -0.08 -0.07 -0.07 0.08 0.17 0.33 0.97 1.00 0.41 0.37 0.04 0.87 0.89 0.85 0.15 0.45 0.46 0.53
x20 -0.49 0.34 -0.15 -0.20 -0.25 -0.06 -0.03 -0.70 -0.03 -0.05 -0.05 -0.06 -0.05 -0.06 0.07 0.68 0.21 0.42 0.41 1.00 0.43 0.14 0.40 0.40 0.39 0.08 0.24 0.25 0.13
x21 -0.42 0.13 -0.19 -0.24 -0.30 0.01 0.12 -0.23 0.07 0.04 -0.03 -0.02 -0.01 -0.06 0.20 0.56 0.74 0.52 0.37 0.43 1.00 0.32 0.16 0.18 0.15 0.19 0.02 0.03 0.43
x22 -0.12 -0.06 -0.13 -0.12 -0.11 0.17 0.24 -0.11 0.21 0.18 -0.19 0.14 0.15 0.10 -0.35 0.13 0.37 0.14 0.04 0.14 0.32 1.00 0.13 0.12 0.14 -0.17 -0.12 -0.12 -0.19
x23 -0.01 0.76 -0.10 -0.11 -0.12 -0.05 -0.05 -0.05 -0.03 -0.05 -0.03 -0.05 -0.05 -0.04 -0.02 0.17 0.24 0.83 0.87 0.40 0.16 0.13 1.00 1.00 1.00 0.09 0.52 0.53 0.16
x24 -0.01 0.76 -0.10 -0.11 -0.12 -0.05 -0.05 -0.03 -0.03 -0.05 -0.03 -0.05 -0.05 -0.04 0.00 0.16 0.25 0.85 0.89 0.40 0.18 0.12 1.00 1.00 0.99 0.10 0.52 0.53 0.21
x25 0.00 0.76 -0.09 -0.10 -0.11 -0.05 -0.05 -0.05 -0.03 -0.05 -0.03 -0.04 -0.04 -0.04 -0.02 0.18 0.23 0.82 0.85 0.39 0.15 0.14 1.00 0.99 1.00 0.07 0.51 0.52 0.12
x26 -0.12 0.07 -0.18 -0.19 -0.21 -0.06 -0.01 0.00 -0.03 -0.05 -0.07 -0.08 -0.08 -0.10 0.18 0.09 0.15 0.17 0.15 0.08 0.19 -0.17 0.09 0.10 0.07 1.00 0.04 0.08 0.29
x27 -0.12 0.38 0.66 0.63 0.58 0.09 0.08 -0.09 0.08 0.08 0.77 0.07 0.05 0.05 -0.16 0.04 -0.01 0.39 0.45 0.24 0.02 -0.12 0.52 0.52 0.51 0.04 1.00 1.00 0.19
x28 -0.12 0.38 0.63 0.61 0.56 0.08 0.07 -0.09 0.07 0.07 0.75 0.06 0.04 0.04 -0.15 0.05 0.00 0.41 0.46 0.25 0.03 -0.12 0.53 0.53 0.52 0.08 1.00 1.00 0.21
x29 -0.20 0.25 -0.08 -0.09 -0.10 0.01 0.03 0.05 0.03 0.02 0.04 0.01 0.01 0.00 0.28 0.01 0.28 0.54 0.53 0.13 0.43 -0.19 0.16 0.21 0.12 0.29 0.19 0.21 1.00

La matriz de correlación muestra la relación lineal entre las variables estandarizadas. Los valores cercanos a 1 indican una fuerte correlación positiva, mientras que los cercanos a -1 indican una fuerte correlación negativa. Los valores cercanos a 0 sugieren que no hay una relación lineal clara.

  • Correlaciones altas (cerca de 1 o -1): Indican relaciones fuertes entre las variables. Por ejemplo, una correlación de 0.80 implica que al aumentar una variable, la otra también tiende a aumentar.
  • Correlaciones bajas (cerca de 0): No muestran una relación lineal clara, sugiriendo que las variables no están directamente relacionadas.

Este análisis ayuda a identificar qué variables tienen relaciones fuertes o débiles, lo que puede guiar en el análisis y la interpretación de los datos.

2. MAPA DE CALOR

En el mapa de calor de la matriz de correlación, las tonalidades rojas indican una correlación positiva alta, mientras que las tonalidades azules representan una correlación negativa significativa. Los colores intermedios, como el blanco, reflejan relaciones más neutrales o débiles. Este mapa permite una visualización rápida para identificar patrones clave, como grupos de variables que están positivamente relacionadas entre sí o aquellas que presentan relaciones negativas, lo que facilita la identificación de dependencias entre variables.

Esta visualización preliminar ayuda a establecer una base para el análisis descriptivo que sigue, permitiéndonos enfocar nuestra atención en las relaciones más relevantes que se explorarán a fondo en el análisis estadístico.

3. TASA DE CAMBIO DE LOS PAÍSES EN LA MONEDA NACIONAL A USD

El mapa mundial presenta las tasas de cambio de la moneda nacional de distintos países en comparación con el dólar de Estados Unidos mediante el uso de colores, junto con indicadores económicos adicionales, como la tasa de desempleo y la fuerza laboral en diferentes países.

Los colores muestran el tipo de cambio de las monedas nacionales frente al dólar estadounidense. Los tonos oscuros reflejan una alta depreciación, mientras que los tonos claros indican una baja depreciación o incluso una apreciación.

Es el caso de India y Argentina, donde la moneda nacional tiene un valor menor con respecto al dólar; en otras palabras, estas monedas se han debilitado. Esto puede ser un resultado asociado con la economía, por ejemplo, la inflación o las decisiones recientes de política monetaria, o tal vez incluso los desequilibrios en el comercio exterior. Mientras tanto, los países pintados en colores más claros mantienen un tipo de cambio más favorable frente al dólar, algo que habla de una moneda más fuerte o al menos más estable.Además, los datos sobre el desempleo y el tamaño del empleo para cada país se evidencian en el mapa, lo que proporciona más detalles sobre la economía y el mercado laboral.

4. DISTRIBUCIÓN DE LA TASA DE INTERÉS A CORTO PLAZO

En este gráfico podemos observar la distribución de la tasa de interés a corto plaza en los 42 países, ordenados de mayor a menor.

Los países con la tasa de interés más alta son Turquía, Brasil, México e India ya que estan en la parte superior del gráfico, lo cual podría sugerir que pueden haber políticas monetarias restrictivas, esto significa la reducción del dinero en circulación para controlar la inflación dentro de los parámetros establecidos, haciendo más atractivo el ahorro.

Argentina, Colombia, Islandia y Rumania cuentan con tasas de interés moderadamente altas, aunque menores en comparación con Turquía y Brasil, por lo cual podríamos afirmar que también pueden existir políticas monetarias restrictivas pero en menor magnitud. Podemos observar que Canadá, Reino Unido y Australia, tienen tasas de interés bajas, los países europeos y desarrollados como Japón, Dinamarca, Suiza, entre otros tienen tasas muy bajas cercanas a 0.

El gráficio refleja cómo los países en vías de desarrollo o con economías emergentes tienden a tener tasas de interés más altas, mientras que las economías desarrolladas tienden a mantener tasas de interés bajas dependiendo de sus necesidades económicas y niveles de inflación.

5. SALDO CUENTA CORRIENTE COMO % DEL PIB

En este gráfico podemos observar el saldo de cuenta corriente como porcentaje del PIB para varios países clasificados de mayor a menor.

Los países que están en la parte superior, Rumania. Grecia, Chile y Nueva Zelanda, tienen valores negativos de cuenta corriente, lo que indica un déficit que significa que estos países importan más de lo que exportan o tienen una salida neta de capital.

Noruega, Irlanda y Alemania muestran un saldo positivo en cuenta corriente, lo que indica un superávit lo cual significa que estos países exportan más de lo que importan o tienen una entrada neta de capital.

Los países como México, Canadá y Francia tienen valores cercanos a cero, por lo que podemos deducir que su cuenta corriente es relativamente equilibrada.

6. DISTRIBUCIÓN DE IMPORTACIÓN Y EXPORTACIÓN POR PAÍS.

El gráfico evidencia el crecimiento en volumen de exportaciones e importaciones de bienes y servicios en diferentes países, esto lo hace comparando ambas categorías en la cual las exportaciones están representadas por un boxplot color rojo y las importaciones por el boxplot color azul.

Las exportaciones presentan una mediana de 10.41 y tiene un rango intercuartílico en el intervalo de 6.77 y 13.97. Asimismo, se pueden observar unos valores atípicos que pertenecen a los países de Croacia con 27.82 y Turquía con 24.89, también es importante resaltar que el bigote inferior alcanza valores negativos , esto nos permite saber que hay países con tasas de crecimiento muy bajas.

Por otro lado, se tiene que las importaciones presentan una mediana de 13.12 y que su rango intercuartílico está en el intervalo de 7.83 y 16.07; respecto a los valores atípico, en este boxplot se puede observar una mayor cantidad comparando con los datos atípico de las exportaciones, en las importaciones se tienen los datos atípicos del país india con 35.47, del Chile con un valor de 31.11 y de Colombia con un valor de 28.70, esto si nos fiamos en la parte superior, pero si nos fijamos en la parte inferior podemos encontrar el dato atípico del país Irlanda con un valor de -8.28.

En conjunto, los datos indican que aunque las exportaciones y las importaciones tienen una mediana de crecimiento en volumen similar, las importaciones muestran una mayor dispersión y más valores atípicos en comparación con las exportaciones. Esto podría reflejar diferencias en la variabilidad del crecimiento entre ambas actividades.

RESULTADOS PRINCIPALES (ANÁLISIS MULTIVARIADO, CLUSTER)

1. AGRUPAMIENTO POR K-MEANS

número óptimo de clusters para poder determinar con qué valor hemos de trabajar (K), existen dos métodos principales que se utilizan aquí para evaluar el número óptimo de clusters: Método del codo , Método de la silueta.

Método del codo (WSS)

Este método evalúa la variación total dentro de los clusters en función del número de clusters seleccionados. El gráfico resultante muestra la suma de las distancias cuadradas de cada punto a su centroide, donde estamos buscando el punto donde la disminución de WSS comienza a ser menos significativa, formando un “codo” en la curva. Este punto indica el número óptimo de clusters.

En nuestros resultados podemos observar que entre 2 y 3 se puede encontrar nuestro K óptimo, este es necesario poder compararlo con otros métodos con el fin de poder trabajar con un número de cluster que pueda explicar nuestro modelo.

Método de la silueta

Este enfoque mide qué tan bien se ajustan los puntos dentro de sus respectivos clusters y qué tan distintos son entre sí. La anchura promedio de la silueta para cada número de clusters indica la calidad de la agrupación, se selecciona el número de clusters con el valor más alto de la métrica de silueta.

En los resultados obtenidos en la base de datos podemos ver que el óptimo número de clusters sigue estando entre 2 y 3 al igual que en método de WSS, lo cual nos indica que en el transcurso del desarrollo del proyecto hemos de determinar si se trabajan con una de estas soluciones brindadas o se escoge otro número de cluster que nos permita dar una solución a nuestro modelo.

Para la continuación del desarrollo del trabajo, se emplea el método de agrupamiento k-means para dividir el conjunto de datos en 2 grupos, permitiendo identificar patrones y similitudes entre observaciones. Primero, se asigna cada observación a uno de estos 2 clusters, lo que permite distinguir a qué grupo pertenece cada dato en función de sus características.

Finalmente, se crea una visualización de los clusters, donde se representan los centros de cada grupo y la distribución de los datos dentro de cada cluster. Este gráfico permite una interpretación visual del agrupamiento, mostrando tanto la dispersión de las observaciones como la posición de los centroides.

Cluster Total Media X1 Media X2 Media X3 Media X4
1 41 -0.0185 -0.00463 -0.0117 -0.0159
2 1 0.757 0.190 0.480 0.651

Con estos resultados obtenidos se puede interpretar que estos dos cluster no son correctos o que su base de datos no se encuentra bien escogida, debido a que no se puede llegar a comparar o no tiene sentido hacer una comparación entre 41 países y 1 uno solo, por lo tanto lo óptimo será probar con otro número de cluster que nos permita poder generar un mayor balance para la comparación entre estas variables, aunque se tiene que un exceso de clusters puede generar sobreajuste, donde el modelo se adapta demasiado a los datos específicos y pierde generalización. Además, un número elevado de clusters podría dificultar la interpretación de los resultados, generando grupos menos significativos y complicando el análisis visual y conceptual. Por tanto, se debe buscar un equilibrio para lograr una representación balanceada y significativa de los datos.

Para poder comprender un poco como se ve nuestro modelo decidimos de realizar una comparación de este mismo modelo de k-means ahora usando un total de 3 clusters donde se obtuvieron los siguientes resultados:

Cluster Total Media X1 Media X2 Media X3 Media X4
1 35 0.103 -0.222 0.0404 0.0448
2 6 -0.726 1.27 -0.315 -0.370
3 1 0.757 0.190 0.480 0.651

Al analizar los resultados con un número de clusters igual a 3, observamos que el cluster 1 agrupa a un total de 35 países, el cluster 2 a 6 países, y el tercer cluster solo a uno. Esto indica que, aunque el aumento en el número de clusters ha generado cierta variabilidad en la distribución de países, el agrupamiento sigue sin ser óptimo para un análisis adecuado. Por lo tanto, es necesario continuar probando con otros valores para encontrar una estructura de clusters más equilibrada y estable, posteriormente se decidió trabajar con un número de cluster igual a 4 con el fin de poder encontrar unos datos más distribuidos a pesar de que los modelos de silueta y el método del codo nos indican que este valor de K debe de ser igual a 2 o 3; en la obtención de los resultados (se mostrará y explicará el valor de los resultados obtenidos) logramos analizar los siguientes datos:

Cluster Total Media X1 Media X2 Media X3 Media X4
1 1 0.0712 4.780 -0.565 -0.613
2 1 0.757 0.190 0.480 0.651
3 29 0.180 -0.203 0.173 0.190
4 11 -0.549 0.0834 -0.449 -0.504

En este caso logramos llegar a los siguientes resultados:

  • Tamaño de los clusters: Los grupos tienen tamaños variados, lo que sugiere diferencias en las características comunes entre observaciones. Por ejemplo, en este caso, el tercer cluster es el más grande con 29 observaciones, mientras que el primero y el segundo tienen solo 1 observación cada uno, y el cuarto tiene 11 observaciones. Esto indica que la mayoría de los datos comparten características en común que los agrupan en el tercer clúster.

  • Promedios de las variables en cada cluster: Cada variable tiene un valor promedio distinto en cada cluster. Estos valores promedio permiten entender las características que diferencian a cada grupo.

  • Clusters atípicos: Para los clusters 1 y 2, se puede evidenciar que hay una anomalía debido al número de países que tiene cada uno de estos, lo cual nos invita a investigar el tipo de variable que hace que estos clusters tengan este comportamiento.

Ya analizando los resultados obtenidos, decidimos trabajar con estos números de clusters debido a que se cuenta con un mejor balance en comparación con el resultado que obtuvimos anteriormente, donde el k óptimo era 2.

A continuación, se generó una visualización comparativa de los dos gráficos de clusters, permitiendo observar las diferencias entre el modelo con 4 clusters (Modelo 1) y el modelo con 3 clusters (Modelo 2). Ambos gráficos facilitan la comparación de la distribución y estructura de los clusters en cada modelo, lo cual ayuda a identificar cuál de los dos modelos presenta una agrupación más coherente o útil para los objetivos del análisis.

En este gráfico se observa la distribución de los países dentro de cada cluster, así como el conjunto de individuos que abarca cada uno. En nuestro caso, se optó por trabajar con el modelo de 4 clusters. Aunque dos clusters contienen solo un país, los otros dos agrupan a 29 y 11 países, respectivamente. A pesar de las diferencias en tamaño, parece ser la opción más adecuada para el análisis de nuestros datos.

2. AGRUPAMIENTO JERÁRQUICO

En el análisis de agrupamiento jerárquico, se realizó un corte en el dendrograma a una altura de 13, lo que permitió identificar y segmentar los datos en 4 clusters, que era el número deseado. Este corte facilitó la separación adecuada de los grupos, cumpliendo con las expectativas del modelo y proporcionando una distribución coherente de las observaciones dentro de los clusters definidos.

El objetivo de visualizar el dendrograma es que este es una representación gráfica del proceso de agrupamiento jerárquico, donde cada fusión de observaciones o clusters se muestra como una rama que se une a una altura proporcional a la distancia entre ellos.

Se establece un corte en el dendrograma a una altura específica, en nuestro caso, 13, lo que resalta las ramas y etiquetas de los clusters resultantes mediante diferentes colores. Este corte facilita la observación de la agrupación a un nivel determinado y permite identificar claramente el número de grupos deseados. Además, de manera alternativa, se puede colorear el dendrograma para visualizar una cantidad específica de clusters, siendo en este caso 4. Esta visualización permite destacar los grupos de interés y ajustarlos según los requerimientos del análisis en nuestros resultados del modelo logramos obtener la siguiente gráfica:

Finalmente se utilizó el método de la silueta para evaluar qué número de clusters podría ser el más adecuado. Este método en nuestro caso nos indica que el número correcto es de 2 sin embargo este modelo jerárquico no nos da claridad acerca de los resultados obtenidos ya que son confusos, podemos ver que usando un total de 4 y 2 clusters vemos que a pesar de que su estructura sea diferente mantiene el mismo número de clusters en estos casos tres de estos contienen un solo país, en este caso vemos a Corea, Argentina, Estados Unidos ( USA ) dándonos la conclusión que es posible que nuestra base de datos tengamos unos datos que son atípicos los cuales provocan este comportamiento entre los paises, tambien si comparamos este con nuestra modelo K-MEANS se podemos concluir que cada modelo nos arroja valores distintos, ya que el número de elementos que pertenece a cada cluster es diferente, y también podemos ver que el modelo K-MEANS nos ofrece una mejor distribución de los datos.

En resumen, el método Ward permite formar clusters de manera jerárquica, visualizarlos y evaluar la calidad de la agrupación en función del número de clusters.

ANÁLISIS DE COMPONENTES PRINCIPALES (PCA)

El Análisis de Componentes Principales (PCA) se utilizó para reducir la dimensionalidad del conjunto de datos, el cual contiene 29 variables económicas. Este método permite simplificar la estructura de los datos manteniendo la mayor variabilidad posible. Al reducir las variables a un conjunto de componentes principales, el PCA facilita la visualización e interpretación de los datos, ayudando a identificar patrones y agrupaciones subyacentes.

En primer lugar, se aplicó el PCA a 42 países y 29 variables. Las variables fueron estandarizadas para garantizar que cada una contribuye igualmente al análisis, sin que las diferencias en escalas influyeran en los resultados. A continuación, se calculó la varianza explicada por cada componente principal.

Vista de las primeras columnas de la base de datos estandarizada
x1 x2 x3 x4 x5 x6
Australia 0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
Austria -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
Belgium -0.1146314 -0.3919375 0.0943419 0.1232646 0.1562686 -0.2727278
Canada -0.1907450 -0.3695456 0.3194705 0.3047038 0.2807070 -0.2669231
Chile -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563 0.2344572
Colombia -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917 2.3748177
Vista de las primeras columnas de la base de entrenamiento
x1 x2 x3 x4 x5 x6
Australia 0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
Austria -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
Belgium -0.1146314 -0.3919375 0.0943419 0.1232646 0.1562686 -0.2727278
Canada -0.1907450 -0.3695456 0.3194705 0.3047038 0.2807070 -0.2669231
Chile -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563 0.2344572
Colombia -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917 2.3748177
Porcentaje de varianza explicada por cada componente principal
Componente Varianza.Explicada….
PC1 PC1 24.34
PC2 PC2 22.99
PC3 PC3 17.62
PC4 PC4 9.40
PC5 PC5 7.17
PC6 PC6 5.30
PC7 PC7 3.70
PC8 PC8 2.72
PC9 PC9 1.80
PC10 PC10 1.41
PC11 PC11 1.15
PC12 PC12 0.74
PC13 PC13 0.67
PC14 PC14 0.27
PC15 PC15 0.26
PC16 PC16 0.26
PC17 PC17 0.11
PC18 PC18 0.07
PC19 PC19 0.02
PC20 PC20 0.00
PC21 PC21 0.00
PC22 PC22 0.00
PC23 PC23 0.00
PC24 PC24 0.00
PC25 PC25 0.00
PC26 PC26 0.00
PC27 PC27 0.00
PC28 PC28 0.00
PC29 PC29 0.00

Los resultados mostraron que los primeros componentes principales explican la mayor parte de la variabilidad en los datos. Se visualizó la proporción de la varianza explicada por cada componente utilizando un gráfico de barras, donde se puede observar claramente cuánta información aporta cada componente al modelo global, en este caso la dimensión 1 explica un 24.3%, la dimensión 2 un 23%, la dimensión 3 explica el 17.6%, la dimensión 4 explica el 9.4%. Con estas 4 dimensiones se calcula un total del 74.3 % de varianza explicada lo cual indica que es un Número óptimo para trabajar con esta cantidad de dimensiones.

Posteriormente, se generó un gráfico utilizando los dos primeros componentes principales. Cada país fue representado como un punto en este gráfico, y los puntos fueron coloreados en función de su calidad de representación en el espacio reducido, medida a través del cos2. Esta visualización permite identificar cómo se distribuyen los países en función de sus características económicas más destacadas y qué países comparten comportamientos similares según los componentes principales.

Para esta gráfica se logró mostrar una tabla la cual nos facilita los valores y resultados que tenemos dentro del gráfico la cual es la siguiente :

Country Dim.1 Dim.2 Dim.3 Dim.4
Australia 0.024737439 0.44490698 0.005712548 0.039046155
Austria 0.015127287 0.58414201 0.189067727 0.047571510
Belgium 0.013231722 0.54915266 0.001305745 0.004009541
Canada 0.015463173 0.22093282 0.275870319 0.023750656
Chile 0.022509434 1.33279248 3.589056786 12.589558714
Colombia 5.682988760 5.10955102 5.811430131 4.577122988
Czech Republic 0.032278461 0.47526306 0.061750305 0.007132959
Denmark 0.013960644 0.85229450 0.059812779 1.304296158
Estonia 0.262473304 0.12399017 1.354860775 0.360309059
Finland 0.010478057 1.21393618 0.102367138 0.459128424
France 0.001566605 0.24562310 0.983666433 0.248103482
Germany 0.443558941 0.74240872 9.943945157 0.199178439
Greece 0.334691937 0.07153512 1.333629518 1.443436986
Hungary 0.020879098 0.19682714 0.316163383 0.032323711
Iceland 0.217750302 0.16933493 1.029460005 0.633789350
Ireland 0.048553706 2.67803539 0.389090728 30.826512165
Israel 0.186554579 0.11771185 0.904424702 0.378383172
Italy 0.015548718 0.27002594 0.275404344 0.209953430
Japan 5.060813582 0.02780317 3.208250213 0.658995016
Korea 63.087496564 10.81939019 1.610879223 2.783005016
Luxembourg 0.095332918 0.38060480 0.485770611 0.057765496
Mexico 0.091136515 0.06071371 0.772385407 0.319492278
Netherlands 0.026551316 1.04276715 0.626771991 1.037460564
New Zealand 0.065040836 0.31043215 0.701317587 1.475877876
Norway 0.105731601 0.36565497 0.014045326 6.055058344
Poland 0.059737724 0.14765249 0.016173770 0.165844012
Portugal 0.060226278 0.56952851 0.445323870 0.030675762
Slovak Republic 0.011298722 1.05522371 0.224441727 0.048520195
Slovenia 0.190947436 0.17810616 1.224219424 0.192621015
Spain 0.023515433 0.38501213 0.031991317 0.003412518
Sweden 0.028449280 0.60369044 0.031270236 0.349796159
Switzerland 0.011230780 1.47534391 0.138328983 2.481567394
Türkiye 2.276945988 3.28401491 0.139065497 0.706682482
United Kingdom 0.025189865 0.21979049 1.190378053 0.478732579
United States 0.855491374 0.76413878 53.873215399 11.171339961
Argentina 15.857628324 57.04526295 0.774017707 8.578019713
Brazil 0.473780726 0.76702956 1.338920798 0.221807107
Croatia 0.311189368 0.12791123 1.440422993 0.038182572
India 0.079588053 1.73832017 0.247085943 1.712081317
Peru 0.967035371 0.53764893 1.950199201 4.655437077
Romania 0.162959885 0.23147078 0.320419939 0.389619319
South Africa 0.329377509 0.08307225 0.187133882 0.623446946

Esta tabla muestra que el país con la mayor relación con la Dimensión 1 es Corea, con un valor de 63.08, seguido por Argentina con 15.85. Esto indica que Corea es el único país que presenta una relación significativamente mayor con la Dimensión 1 en comparación con los demás países analizados. Para la Dimensión 2, se observa que Argentina tiene la mayor relación, con un valor de 57.04, seguida por Corea con 10.81. Esto sugiere que, en la Dimensión 2, Argentina es el país que tiene una representación predominante.

Para la segunda grafica se realizo un mismo análisis de los países que conformaban para este caso la dimensión 3 y la 4, donde se obtuvieron los siguientes resultados:

##                   x1         x2         x3         x4         x5         x6
## Australia  0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
## Austria   -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
## Belgium   -0.1146314 -0.3919375  0.0943419  0.1232646  0.1562686 -0.2727278
## Canada    -0.1907450 -0.3695456  0.3194705  0.3047038  0.2807070 -0.2669231
## Chile     -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563  0.2344572
## Colombia  -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917  2.3748177

de esta gráfica obtuvimos la siguiente tabla :

En la Dimensión 3, se observa que Estados Unidos es el país con la mayor relación, alcanzando un valor de 53.87, seguido por Alemania con 9.94. En cuanto a la Dimensión 4, Se puede observar que el país con mayor relación en la Dimensión 4 es Irlanda, con un valor de 30.82, seguido por Chile con 12.58 y Estados Unidos con 11.17. Estos resultados indican que Irlanda tiene una conexión más fuerte con esta dimensión en comparación con los demás países, aunque Chile y Estados Unidos también muestran una relación destacada.

Para entender mejor la contribución de cada variable a los componentes principales, se generó una visualización que muestra cómo cada variable influye en los dos primeros componentes principales (PC1 y PC2). Este gráfico permite observar la distribución y el peso relativo de las variables dentro del espacio reducido. La información obtenida de esta visualización es valiosa para comprender qué características son más relevantes para la segmentación de los países en función de sus indicadores económicos, y ayuda a interpretar la composición de los clusters obtenidos en las etapas posteriores del análisis.

library(factoextra)
library(tidyverse)



base.train <- base[1:42, 1:29]

head(base.train[, 1:6])
##                   x1         x2         x3         x4         x5         x6
## Australia  0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
## Austria   -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
## Belgium   -0.1146314 -0.3919375  0.0943419  0.1232646  0.1562686 -0.2727278
## Canada    -0.1907450 -0.3695456  0.3194705  0.3047038  0.2807070 -0.2669231
## Chile     -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563  0.2344572
## Colombia  -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917  2.3748177
res.pca <- prcomp(base.train, scale = TRUE)



fviz_pca_var(res.pca,
             col.var = "contrib", # Color by contributions to the PC
             gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
             repel = TRUE,
             axes = c(1,2)# Avoid text overlapping
)

En el contexto del Análisis de Componentes Principales (ACP), la Dimensión 1 representa una combinación lineal de las variables originales que captura la mayor parte de la variabilidad presente en los datos. En este caso, podemos observar que la Dimensión 1 está fuertemente asociada con ciertas variables, como x6, x7, x9, x10, x12, x13 y x14. Esto indica que estas variables tienen una mayor contribución en la formación de la primera dimensión, lo que significa que son las que más influyen en la variabilidad representada por esta dimensión.

Una vez con las variables encontradas para a primera dimensión es de utilidad poder darle un nombre a esta con el fin de de entender bajo que criterio es esta tomada explicando la relación en estos datos, Teniendo así la dimensión renombra de la siguiente manera:

Flujo Económico y Mercado

En términos simples, esto quiere decir que, al observar el flujo Económico y Mercado , podemos interpretar que las características o comportamientos de los países reflejados por las variables x6, x7, x9, x10, x12, x13 y x14 son más prominentes en esta dimensión, y por lo tanto, son cruciales para diferenciar a los países dentro de este espacio reducido de análisis.

En el caso de la Dimensión 2, las variables x2, x18, x19, x23, x24 y x25 muestran una mayor relación con esta componente, lo que sugiere que son las que contribuyen significativamente a la variabilidad representada en esta dimensión. A diferencia de la Dimensión 1, que estuvo más relacionada con otras variables, la Dimensión 2 refleja una combinación diferente de características, y estas variables específicas juegan un papel clave en esta representación, en este caso se decidió renombrar la dimensión de la siguiente forma:

Valor Monetario y Comercio Exterior

Para continuar con el análisis, se procederá de manera similar con las Dimensiones 3 y 4, con el objetivo de explorar cómo las variables asociadas a estas dimensiones contribuyen a la estructura global del conjunto de datos. La visualización y evaluación de estas dimensiones proporcionará información adicional sobre las relaciones y patrones presentes en los datos en nuestro caso:

##                   x1         x2         x3         x4         x5         x6
## Australia  0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
## Austria   -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
## Belgium   -0.1146314 -0.3919375  0.0943419  0.1232646  0.1562686 -0.2727278
## Canada    -0.1907450 -0.3695456  0.3194705  0.3047038  0.2807070 -0.2669231
## Chile     -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563  0.2344572
## Colombia  -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917  2.3748177

En el análisis de las Dimensiones 3 y 4, se observa una clara distribución de las variables que refleja las características particulares de cada dimensión. En la Dimensión 3, las variables x3, x4, x5, x11, x27 y x28 presentan una fuerte relación con esta dimensión, lo que sugiere que estas variables comparten un comportamiento común que se ve reflejado en la agrupación de los países a lo largo de esta dimensión .

Comercio Exterior y Dinámica Laboral

Por otro lado, en la Dimensión 4, se destacan dos grupos de variables que apuntan en direcciones opuestas en el plano. Las variables x20, x21 y x26 se agrupan en una región superior de la Dimensión 4 y en la parte inferior en el de la Dimensión 3, lo que indica una relación particular entre ellas en términos de las variables representadas. En contraste, las variables x1 y x8 muestran una orientación opuesta, apuntando hacia la zona inferior en Dimensión 3 pero apunta a la superior en Dimensión 4 , lo cual sugiere que estas variables están asociadas a un conjunto diferente de patrones económicos, a pesar de que su orientación indica que, aunque no comparten la misma relación en términos de variabilidad o contribución, aún se encuentran dentro de la misma representadas por la Dimensión 4.

Equilibrio Económico y Crecimiento Sostenible

Para continuar con el análisis, se genera un biplot del Análisis de Componentes Principales utilizando las primeras dos dimensiones. Este gráfico permite representar tanto las observaciones individuales (los países) como las variables en un mismo espacio, facilitando la visualización de las relaciones y patrones subyacentes.

library(factoextra)
library(tidyverse)



base.train <- base[1:42, 1:29]

head(base.train[, 1:6])
##                   x1         x2         x3         x4         x5         x6
## Australia  0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
## Austria   -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
## Belgium   -0.1146314 -0.3919375  0.0943419  0.1232646  0.1562686 -0.2727278
## Canada    -0.1907450 -0.3695456  0.3194705  0.3047038  0.2807070 -0.2669231
## Chile     -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563  0.2344572
## Colombia  -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917  2.3748177
res.pca <- prcomp(base.train, scale = TRUE)


fviz_pca_biplot(res.pca, repel = TRUE,
                col.var = "#2E9FDF", # Variables color
                col.ind = "#696969",
                axes=c(1,2)# Individuals color
)

Lo mismo aplicamos para la dimensión 3 y 4 :

library(factoextra)
library(tidyverse)



base.train <- base[1:42, 1:29]

head(base.train[, 1:6])
##                   x1         x2         x3         x4         x5         x6
## Australia  0.4090990 -0.3652676 -0.1860316 -0.2163523 -0.2492579 -0.2669008
## Austria   -0.1294945 -0.3919375 -0.2794491 -0.2923963 -0.3025594 -0.2732543
## Belgium   -0.1146314 -0.3919375  0.0943419  0.1232646  0.1562686 -0.2727278
## Canada    -0.1907450 -0.3695456  0.3194705  0.3047038  0.2807070 -0.2669231
## Chile     -1.4790588 -0.3966429 -0.5234406 -0.5937920 -0.6683563  0.2344572
## Colombia  -1.3091371 -0.2328410 -0.5575899 -0.6398940 -0.7281917  2.3748177
res.pca <- prcomp(base.train, scale = TRUE)


fviz_pca_biplot(res.pca, repel = TRUE,
                col.var = "#2E9FDF", # Variables color
                col.ind = "#696969",
                axes=c(3,4)# Individuals color
)

Continuando con la explicación del modelo

Con base en los resultados obtenidos del análisis de agrupamiento utilizando el método de componentes principales, se procedió a la segmentación de los países en 4 clusters. Este agrupamiento se realizó utilizando los dos primeros componentes principales, que fueron seleccionados para capturar las características más relevantes de la variabilidad de los datos además de la siguiente tabla :

A continuación, se detallan los clusters asignados a cada país:

  • Cluster 1: Incluye países como Australia, Austria, Bélgica, Canadá, Finlandia, Francia, Alemania, Grecia, Irlanda, Israel, Italia, Luxemburgo, México, Países Bajos, Nueva Zelanda, Noruega, Polonia, Portugal, Eslovaquia, Eslovenia, España, Suecia, Suiza, México, Reino Unido y Sudáfrica.
  • Cluster 2: Compuesto por Estados Unidos, Chile, Colombia, Brasil, India, Perú, Japón y Turquía.
  • Cluster 3: Incluye únicamente a Corea.
  • Cluster 4: Representado únicamente por Argentina.

Este agrupamiento muestra cómo los países se agrupan en función de sus características económicas, permitiendo identificar patrones similares en las variables que han sido consideradas en el análisis. En particular, se puede observar que, en general, los países con economías más desarrolladas tienden a agruparse en el Cluster 1, mientras que algunos países emergentes o en desarrollo, como Corea y Argentina, se agrupan en clusters separados (Cluster 3 y Cluster 4).

Este comportamiento podría reflejar la presencia de valores atípicos, ya que las características económicas de Corea y Argentina parecen ser significativamente diferentes en comparación con otros países. Los valores atípicos son observaciones que se desvían considerablemente del resto de los datos, y en este caso, podrían estar influyendo en la asignación de estos países a clusters individuales.

Análisis de Correlación entre Variables:

Se generó un círculo de correlación para visualizar las relaciones entre las variables y los componentes principales. Las variables cercanas en el círculo están más correlacionadas, mientras que las distantes tienen una relación más débil. Este gráfico ayuda a entender el peso de cada variable en los componentes principales y su influencia en la segmentación de los países en los clusters.

Gráfico de Individuos con Etiquetas:

Se generó un gráfico de los individuos (países) con las etiquetas correspondientes a cada fila de la base de datos. Esto permitió visualizar la distribución de los países en el espacio de los componentes principales, facilitando la identificación de los países dentro de sus respectivos clusters.

Gráfico Conjunto en los Ejes 1 y 2:

Se elaboró un gráfico conjunto utilizando los dos primeros componentes principales. Este gráfico combina la representación de los individuos y las variables, permitiendo observar cómo se agrupan los países y cómo se relacionan con las variables en el espacio reducido. La visualización facilita la identificación de patrones y tendencias en los datos a través de los ejes principales.

áfico de los Individuos Agrupados por Clusters en los Componentes Principales:

Se generó un gráfico en el que los países se agruparon según los clusters obtenidos en el análisis. Utilizando los dos primeros componentes principales, cada grupo fue representado con un color distinto. Este gráfico proporciona una visualización clara de cómo los países se distribuyen en el espacio de componentes principales, destacando las diferencias entre los clusters identificados en el análisis.

Tras realizar el análisis de componentes principales y la asignación de los países a los diferentes clusters, se procedió a un análisis descriptivo para identificar las medias de las variables en cada grupo. Los resultados obtenidos muestran una distribución clara de las variables que caracterizan a cada cluster:

  • Cluster 1:
    Este grupo presenta valores bajos en una amplia gama de variables, como x23, x24, x11, x17, y x14, entre otras. Esto indica que los países pertenecientes a este cluster comparten ciertas características económicas y sociales, reflejando un perfil económico particular con una tendencia a valores más bajos en las variables asociadas. Este grupo incluye países como Australia, Austria, Bélgica, Canadá, y otros con perfiles económicos desarrollados.

  • Cluster 2:
    En este cluster, las variables x21, x29, x28, y x27 muestran valores más altos, sugiriendo que los países en este grupo tienen características económicas diferentes, con un perfil más destacado en estas variables. Este cluster incluye países como Estados Unidos, Chile, Colombia, Brasil, entre otros, reflejando economías emergentes.

  • Cluster 3:
    Este cluster presenta valores notablemente altos para las variables x14, x13, x12, x10, y otras, lo que indica que los países en este grupo se caracterizan por valores elevados en estas variables, sugiriendo un perfil económico muy específico. Este cluster está compuesto únicamente por Corea.

  • Cluster 4:
    Las variables x25, x23, x24, x19, y x18 son las que tienen los valores más altos en este cluster, lo que señala que los países de este grupo presentan características económicas destacadas, con valores superiores en estas variables. En este caso, el único país en este cluster es Argentina.

CONCLUSIONES

Durante el desarrollo de nuestro modelo de aprendizaje no supervisado, observamos que al ejecutar el código obtuvimos resultados atípicos, lo cual generó dudas sobre la fiabilidad del modelo y nos llevó a cuestionar si el modelo presentaba algún defecto o si la base de datos contiene valores no óptimos. Al aplicar los métodos del codo y la silueta para determinar el número óptimo de clusters en el modelo k-means, identificamos que los valores recomendados de \(K = 2\) o \(K = 3\) no generaban una estructura de agrupamiento adecuada ni significativa para los datos analizados.

Dado que los valores óptimos de \(K\) no ofrecían resultados satisfactorios, decidimos aumentar el número de clusters a \(K = 4\) para observar si así se lograba una distribución de países más equilibrada. En esta configuración, aunque dos clusters contenían solo un país cada uno, los otros dos agrupaban a 29 y 11 países respectivamente, proporcionando una estructura algo más balanceada y permitiendo una interpretación más útil de los datos. Sin embargo, también reconocimos que un aumento excesivo en el número de clusters podría llevar a sobreajuste, donde el modelo se adapta demasiado a características específicas de los datos en lugar de generalizar patrones más significativos.

Consideramos también eliminar países con valores atípicos para mejorar la coherencia de los clusters. Sin embargo, al intentar esta estrategia, observamos que la eliminación de estos países no resolvía el problema, y nuestro modelo seguía reajustándose en cada prueba. Este comportamiento sugiere que los valores atípicos podrían ser de las variables analizadas. Por esta razón, decidimos no eliminar países ni variables, optando en su lugar por un modelo con 4 clusters que, a pesar de las limitaciones, nos ofrece una estructura más informativa y balanceada.

Para el modelo jerárquico, el análisis de agrupamiento jerárquico establecimos un corte en el dendrograma a una altura de 13, lo que nos permitió segmentar los datos en 4 clusters, cumpliendo con el número de grupos deseado porque se quería ver si tenía un comportamiento similar al k-means. Esta altura facilitó una separación adecuada, ofreciendo una distribución coherente de las observaciones en cada cluster y cumpliendo con los objetivos de este análisis.

La visualización del dendrograma es esencial, ya que muestra gráficamente el proceso de agrupamiento jerárquico. En esta representación, cada cluster aparece como una rama que se une a una altura proporcional a la distancia entre ellos. Al realizar un corte en el dendrograma a la altura de 13, resaltamos las ramas y etiquetas de los clusters resultantes mediante colores distintivos. Esto ayuda a observar la estructura de los grupos a un nivel específico, permitiendo identificar con claridad los 4 clusters deseados. Esta representación visual facilita la identificación de los grupos de interés y permite ajustar el análisis conforme a las necesidades de segmentación.

Posteriormente, se aplicó el método de la silueta para evaluar el número óptimo de clusters. En este caso, el análisis de silueta sugirió que el número óptimo de clusters es \(K = 2\); sin embargo, observamos que con esta configuración la interpretación del modelo jerárquico no era clara, debido a que, tanto con 2 como con 4 clusters, se obtenían resultados confusos. En ambos casos, tres de los clusters contienen solo un país (Corea, Argentina y Estados Unidos). Este patrón sugiere la posible presencia de valores atípicos en la base de datos que afectan la segmentación y conducen a la formación de clusters individuales para estos países.

Al comparar los resultados del agrupamiento jerárquico con el modelo k-means, observamos diferencias en la distribución de los datos. El modelo k-means parece ofrecer una distribución más equilibrada y manejable de los clusters, mientras que el método jerárquico tiende a generar clusters con menor cantidad de observaciones, algunos de ellos con un solo país. Esto sugiere que el modelo k-means proporciona una estructura de agrupamiento más coherente para los objetivos de este análisis, especialmente cuando se busca evitar grupos muy reducidos y captar patrones en común.

Hasta el momento, al haber analizado clusters por variables nos dan esos resultados los cuales nos dejan ciertas dudas debido a que no se encuentra una solución óptima para ello, y cuando empezamos por factores como el ACP (Análisis de Componentes Principales), logramos disminuir nuestras dimensiones, llegando a la hora de interpretar estas mismas:

  • Dimensión 1: Está fuertemente asociada con variables como \(x_6\), \(x_7\), \(x_9\), \(x_{10}\), \(x_{12}\), \(x_{13}\) y \(x_{14}\), que reflejan principalmente el flujo económico y el mercado. Esto sugiere que esta dimensión agrupa características que representan el comportamiento económico de los países en términos de actividad de mercado.
  • Dimensión 2: Esta dimensión tiene una relación notable con las variables \(x_2\), \(x_{18}\), \(x_{19}\), \(x_{23}\), \(x_{24}\) y \(x_{25}\), asociadas al valor monetario y comercio exterior. Así, esta dimensión representa los aspectos financieros y comerciales internacionales de los países.
  • Dimensión 3: Está dominada por las variables \(x_3\), \(x_4\), \(x_5\), \(x_{11}\), \(x_{27}\) y \(x_{28}\), las cuales muestran una relación en temas de comercio exterior y dinámica laboral.
  • Dimensión 4: Presenta una polarización en las variables, con \(x_{20}\), \(x_{21}\) y \(x_{26}\) agrupadas en una región, y \(x_1\) y \(x_8\) en la región opuesta. Esto sugiere que la Dimensión 4 representa aspectos de equilibrio económico y crecimiento sostenible, con variables que aportan una perspectiva de estabilidad y crecimiento.

Claramente, también con base en los resultados del ACP, se representan los países en 4 clusters, utilizando los dos primeros componentes principales. Los clusters se asignaron de la siguiente manera:

  • Cluster 1: Incluye países como Australia, Austria, Bélgica, Canadá, y otros con perfiles económicos desarrollados.
  • Cluster 2: Compuesto por Estados Unidos, Chile, Colombia, Brasil, entre otros, reflejando economías emergentes.
  • Cluster 3: Representado únicamente por Corea.
  • Cluster 4: Representado únicamente por Argentina.

Claramente se puede evidenciar que países donde el análisis de clustering que son Corea y Argentina fueron asignados a clusters individuales, lo cual sugiere la presencia de valores atípicos o características económicas únicas que los separan de otros países. Esto indica que los clusters formados no reflejan adecuadamente la estructura subyacente de los datos, ya que no tienen sentido agruparlos por separado. Esta anomalía podría deberse a variables económicas específicas que desvían a estos países del patrón global.

REFERENCIAS

  1. Tribuna Económica. (2024). Política monetaria restrictiva. Recuperado de https://tribunaeconomica.com.mx/publicaciones/seccion/conociendo-los-conceptos-de-economia/politica-monetaria-restrictiva/

  2. D. Paredes. (2024). Aprendizaje no supervisado. Recuperado de https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-no-supervisado.html

  3. YouTube. (2024). Aprendizaje no supervisado: máquina learning. Recuperado de https://www.youtube.com/watch?v=XDzs3AgI024&t=1146s&pp=ygUrYXByZW5kaXphamUgbm8gc3VwZXJ2aXNhZG8gbWFjaGluZSBsZWFybmluZw%3D%3D

  4. IBM. (2024). Aprendizaje no supervisado. Recuperado de https://www.ibm.com/es-es/topics/unsupervised-learning