Introducción

En este documento se presenta una base de datos de 42 países con información cuantitativa del Banco Mundial. Estos datos permitirán interpretar los resultados mediante el uso de técnicas de aprendizaje no supervisado y manipulación de datos. Antes de aplicar el modelo, se realizará un análisis de las variables más destacadas, con el fin de ofrecer una lectura clara y facilitar la comprensión de los resultados obtenidos.

Variables

En este apartado se dará una breve descripción de diez variables de veintinueve posibles, donde la selección de estas mismas fueron basadas en cubrir los principales sectores económicos y asegurarse de que cada variable aporta información relevante en el análisis de estadísticas descriptivas. Con base en la descripción de cada variable y en la necesidad de abarcar diversos sectores (como comercio, consumo, inversión, mercado laboral, etc.), Estas variables proporcionan un conjunto balanceado que permite obtener una buena visión general de la economía en términos de producción, consumo, inversión, mercado laboral, y finanzas.

Fuerza laboral x28 :

Comprende a las personas de 15 años o más que suministran trabajo para la producción de bienes y servicios durante un período específico. Incluye tanto a quienes están empleados actualmente como a los desempleados que buscan trabajo, así como a quienes buscan trabajo por primera vez. Sin embargo, no todas las personas que trabajan están incluidas. A menudo se excluye a los trabajadores no remunerados, trabajadores familiares y estudiantes, y algunos países no cuentan a los miembros de las fuerzas armadas. El tamaño de la fuerza laboral tiende a variar durante el año a medida que los trabajadores temporales ingresan y salen.

Gasto de consumo final del gobierno, volumen en USD x6:

La variable “Government Final Consumption Expenditure, Volume” mide el gasto del gobierno en bienes y servicios públicos (como salud, educación y seguridad), ajustado por inflación para mostrar el consumo real del sector público. Este gasto es clave para calcular el aporte del gobierno al PIB.

Tasa de interés a corto plazo x29:

Los tipos de interés a corto plazo son los tipos a los que se efectúan los préstamos a corto plazo entre instituciones financieras o el tipo al que se emiten o negocian en el mercado los títulos públicos a corto plazo. Los tipos de interés a corto plazo son, por lo general, promedios de los tipos diarios, medidos en porcentaje. Los tipos de interés a corto plazo se basan en los tipos del mercado monetario a tres meses, cuando están disponibles. Los nombres estandarizados más habituales son “tipo del mercado monetario” y “tipo de letra del Tesoro”.

PIB (producto interno bruto) - valor nominal x9:

El producto interno bruto nominal es el valor monetario de los bienes y servicios que produce un país en un determinado periodo de tiempo, utilizando los precios actuales. Se calcula multiplicando la cantidad de cada bien y servicio por su precio actual, para luego sumar estos valores.

PIB - crecimiento del volumen x17:

El crecimiento del volumen de producto interno bruto (PIB) es una medida que permite comparar el desarrollo económico de un país a lo largo del tiempo y entre diferentes economías. En otras palabras, es el aumento del valor de los bienes y productos producidos en un país o economía a causa de inflación o deflación.

Importaciones de Bienes y Servicios - Volumen en USD x3:

Las importaciones de bienes y servicios consisten en operaciones (adquisiciones, trueques, regalos o donaciones) mediante las cuales los no residentes suministran bienes y servicios a los residentes de un país o territorio. Este concepto se refiere a la compra de productos y servicios que un determinado país adquiere de otros países con el objetivo de satisfacer su demanda interna.

Exportaciones de Bienes y Servicios - Volumen en USD x5:

Muestra el valor total de lo que un país vende al extranjero, como alimentos, maquinaria, tecnología y servicios como turismo, asesorias , está ajustada para quitar el efecto de inflación, así que refleja la cantidad real de lo exportado, no solo el precio. Además usa reglas contables que permiten compararla de manera uniforme entre países.

Formación bruta de capital fijo (FBCF) x12:

La formación bruta de capital fijo (FBCF), según el Banco Mundial, se refiere al valor de las adquisiciones netas de activos fijos por parte de una economía, menos las disposiciones de dichos activos. Este indicador incluye la inversión en activos como maquinaria, edificios, infraestructura y equipamiento que contribuyen al proceso productivo durante un período prolongado. Es un componente clave del PIB, ya que refleja la inversión en la capacidad productiva de una economía. La FBCF es un indicador importante que sirve para evaluar el nivel de inversión de una economía, ya que un alto nivel de formación bruta de capital fijo suele estar asociado con un mayor crecimiento económico a futuro en un territorio o país.

Tasa de desempleo x26:

Mide el porcentaje de personas en edad y capacidad de trabajar que están buscando activamente empleo pero no logran encontrarlo. Esta cifra se usa como un indicador clave para entender la salud del mercado laboral en un país: cuando la tasa es alta, suele reflejar una economía en problemas o con pocas oportunidades laborales, mientras que una tasa baja sugiere que la mayoría de quienes desean trabajar pueden encontrar empleo.

Gasto de Consumo Final Privado - Volumen en USD x7:

Esta variable muestra cuánto gastan los hogares en bienes y servicios finales, como alimentos, vivienda, y transporte, y otros bienes y servicios que las familias compran para su uso personal , excluyendo cualquier gasto del gobierno. Al estar ajustado por inflación, permite ver el consumo real de las personas en términos comparables a lo largo del tiempo y entre países, siendo un indicador importante del nivel de vida según el Banco Mundial.

Metodología

En este trabajo realizamos un modelo de aprendizaje no supervisado, tipo de aprendizaje automático en el que se plantea un modelo mediante el cual se entrenan un conjunto de datos. En este caso se eliminaron 3 países y 1 variable con el objetivo de obtener mediante el algoritmo Kmeans agrupamientos más nivelados en términos de cantidad de objetos o países, puesto que al trabajar con todos los países y variables obtenemos 2 clusters, uno con 41 países y el otro solo con 1.

Kmeans:

Es un algoritmo de aprendizaje no supervisado, en el cual se emplea un método de creación de clusters que divide los datos en un número de clusters o agrupamiento específico y definido, basándose en la similitud de características del conjunto de datos total. La creación de los grupos o clusters se logra dividiendo los datos de manera que los países dentro de un cluster sean lo más similares posible entre ellos. Además, en este proceso es fundamental la distancia de los centroides, ya que, inicialmente el algoritmo Kmeans selecciona un número determinado de centroides y asigna cada punto de datos al cluster más cercano a este centroide.

ACP:

Es una técnica de reducción de la dimensionalidad que trata de transformar los datos de espacios de alta dimensión a espacios de baja dimensión sin comprometer las propiedades significativas de los datos originales. En este caso se reduce la dimensión al emplear dimensiones o factores (4 factores) y no trabajar directamente con las variables (29 variables).

Combinación lineal para construir factores:

Una combinación lineal en el contexto del Análisis de Componentes Principales (ACP) implica transformar las variables originales en un conjunto reducido de factores o componentes que simplifican su interpretación. Esto se logra al expresar cada componente principal como una suma ponderada de las variables originales, donde los coeficientes (o pesos) de cada variable se eligen para maximizar la cantidad de varianza que explica cada componente.

De esta manera, cada componente representa una combinación de las variables originales que retiene la mayor cantidad posible de información relevante. El resultado es que, en lugar de trabajar con muchas variables, que pueden ser difíciles de analizar por su complejidad y redundancia, se puede trabajar con solo unos pocos factores significativos. Este proceso facilita la interpretación de los datos, ya que concentra la variabilidad en un número reducido de componentes que explican la estructura general de los datos, esto se puede representar de la siguiente manera:

\[ \text{Factor} : \lambda_1 X_1 + \lambda_2 X_2 + \lambda_3 X_3 + \cdots + \lambda_n X_n \] Donde \(X_i\) representa las variables y \(\lambda_i\) son los pesos que maximizan la varianza del componente.

Ortogonalidad

La ortogonalidad permite que el modelo descomponga los datos en componentes o factores que capturan diferentes aspectos de la variabilidad en los datos. En otras palabras, consiste en que los factores o dimensiones obtenidas de la reducción de dimensionalidad no se correlacionan entre sí. Con ello, cada dimensión captura la máxima variabilidad posible de los datos, sin repetir la información ya explicada por los componentes anteriores. Cada nuevo componente se calcula de manera que sea linealmente independiente de los anteriores, lo que garantiza que no estén correlacionados. Al trabajar con solo algunas dimensiones (en este caso, cuatro en lugar de 29), podemos reducir la complejidad de los datos sin perder información redundante o repetitiva, ya que cada dimensión adicional no tiene información compartida con las otras.

Análisis descriptivo

En este apartado se presentarán diferentes gráficas basadas en las variables planteadas en la introducción del documento. Sin embargo, antes de realizar el análisis descriptivo de aquellas variables es de suma importancia identificar los valores atípicos en las diferentes variables presentes en la base de datos.

Valores (países) atípicos

En este gráfico representamos los países atípicos por cada variable, lo que ayudará a ver más adelante cómo esto afecta al proceso ACP, donde los países atípicos tomarán un camino diferente a los demás, creando clústers de un solo país y afectando un poco la interpretación clara deseada. Se puede observar que las variables con más países atípicos son x10, x12, x13, x14 , x6 , x7 , x9, y los países atípicos se repiten en estas variables, paises como: Corea, Colombia, Japón y Chile, aunque debido a las escalas de las variables no es tan notorio pero Estados Unidos y Argentina también entran en los países atípicos, cabe destacar que la base de datos aquí no está normalizada.

Los valores atípicos también pueden señalar variables con alta variabilidad o diferencias importantes entre países, lo cual es útil en la interpretación descriptiva. Identificar estas variables puede orientar el análisis , en el ACP, ayudar a decidir si es adecuado excluir algunas variables para mejorar la compresión de la estructura subyacente de los datos.

Tasa de interés a corto plazo (x29):

En este gráfico se muestra la tasa de interés a corto plazo en 6 países, destacando los tres valores más altos y los tres más bajos.

Turquía tiene la tasa de interés a corto plazo más alta, con un valor notablemente superior al de los demás países, lo cual indica políticas monetarias más restrictivas para controlar posibles presiones inflacionarias u otros problemas económicos. Esto refleja una decisión de política que busca moderar el crédito y el gasto.

Eslovenia, España y Suiza están entre los países con las tasas de interés a corto plazo más bajas, estas tasas bajas indican políticas monetarias expansivas, probablemente con el objetivo de estimular el crecimiento económico y el crédito en condiciones de baja inflación o recuperación económica, esto puede influir en el atractivo de cada país para la inversión, el costo del crédito y el crecimiento económico.

PIB nominal (x9):

Los países en este análisis representan economías de diferentes tamaños y etapas de desarrollo. Corea y Japón son economías industrializadas con alto valor agregado, mientras que Colombia, India y Chile dependen más de recursos naturales y manufactura. La variabilidad en el PIB real refleja diferencias en población, estructura económica y niveles de industrialización. A nivel mundial, no es común que Chile y Colombia se encuentren entre las economías con mayor PIB real en términos absolutos. Su presencia en este gráfico podría ser el resultado de un enfoque o filtrado particular de los datos, o bien, de factores temporales que impulsaron su PIB en esos momentos específicos.

Formación bruta de capital fijo (x12):

A partir de este gráfico se observan los países con mayor formación bruta de capital fijo (FBCF), entre los cuales están en orden descendente: Corea, Colombia, Japón, Chile, India, Hungría, Estados Unidos, México, Suecia y República Checa. Korea tiene un valor de FBCF muy alto en comparación con todos los demás países, lo que significa que este país tiene una alta inversión de capital. Por otro lado, países como Colombia, Japón, Chile e India tienen un alto FBCF pero no es similar o comparable al valor obtenido por Corea.

FBCF y PIB nominal (x12) y (x9)

Estas dos variables se relacionan bastante, debido a que tienen un enfoque en la inversión y con ello la producción de bienes y servicios en un país o territorio. Por ello, se realizó el siguiente gráfico de dispersión con el objetivo de analizar de mejor manera esta relación.

A partir de este gráfico de dispersión se logra observar que a medida que el nivel o valor de la formación bruta de capital fija (FBCF) aumenta, también incrementa el valor del PIB nominal. Esto se puede deber a que un nivel alto de FBCF contribuye a mejorar la capacidad productiva en una economía, con ello incrementando el PIB.

Exportaciones de bienes y servicios (x5) - volumen en USD

En este gráfico podemos observar los 10 países pertenecientes a la base de datos con un nivel más alto de exportaciones de bienes y servicios. Estados Unidos es el país que con diferencia tiene la mayor cifra de exportaciones de bienes y servicios, es decir, es el país que registra mayor totalidad de ventas (valor) al extranjero. Por otro lado, se puede observar que Japón, Corea, India y México tienen un nivel similar de exportaciones.

Importaciones de bienes y servicios - volumen en USD (x3)

A partir de este gráfico se puede determinar que Estados Unidos sobresale como el país con mayor volumen de importaciones de bienes y servicios, es decir, es un país que registra un volumen alto de compras o adquisiciones de bienes y servicios a otros países. Por otro lado, los demás países presentan un nivel relativamente bajo en comparación a Estados Unidos.

Gasto consumo final privado USD (x7)

En el siguiente gráfico ilustra el gasto de consumo final privado (en USD) de varios países, mostrando cuánto dinero destinan los hogares al consumo de bienes y servicios. Se observa que hay una notable variabilidad en el nivel de gasto entre los países, Corea se destaca con el gasto más alto, seguido por Colombia y Japón en un nivel intermedio, Chile e India tienen un gasto considerablemente menor en comparación con los otros tres países.

Fuerza laboral (x28)

Este gráfico lo lidera Estados Unidos, lo que refleja su gran base de trabajadores y su rol en la economía global. Argentina y Brasil también muestran fuerzas laborales importantes, alineadas con el tamaño de sus economías en América Latina y su actividad en sectores como la agricultura, la industria y los servicios. Japón, México y Turquía tienen fuerzas laborales considerables, aunque menores que las de Estados Unidos y Brasil, en concordancia con sus niveles de desarrollo y población. Finalmente, países como Francia, Alemania, el Reino Unido y Corea también muestran una fuerza laboral relevante, pero en menor escala, lo que es coherente con sus economías avanzadas e industrializadas.

PIB crecimiento del volumen (x17)

Irlanda y Perú destacan con los mayores crecimientos en el PIB, con valores cercanos o superiores al 12%. Esto podría indicar un crecimiento económico robusto en estos países, impulsado por factores como la inversión, el consumo o políticas económicas favorables. La mayoría de los otros países, incluyendo Argentina, Colombia, Croacia, Grecia, India, Chile, Turquía, e Israel, presentan crecimientos más moderados, generalmente entre el 9% y el 11%. Esto sugiere una tendencia de crecimiento económico estable, aunque menos destacada que la de Irlanda y Chile. Israel y Grecia se encuentran entre los países con los valores más bajos de crecimiento en este conjunto, aunque aún muestran un crecimiento positivo.

Gasto consumo final del gobierno USD (x6)

El gráfico muestra el Gasto de Consumo Final del Gobierno (USD) para cinco países: Chile, Colombia, India, Japón y Corea. En él se observa que Corea presenta el nivel de gasto más alto, destacándose notablemente frente a los demás países. Por el contrario, Colombia y Japón tienen gastos intermedios, aunque claramente menores que el de Corea. Esto podría indicar un enfoque moderado en cuanto a políticas de gasto público. Por su parte, Chile e India muestran los valores más bajos, lo que podría reflejar una política de gasto gubernamental más limitada o estructuras en las que el consumo final del gobierno tiene menor peso en la economía.

Corea puede considerarse un país atípico en este conjunto, ya que su nivel de gasto es significativamente superior al de los demás, lo cual podría responder a factores específicos de su economía o políticas públicas.

Modelo

Analisis k-means

Una vez observadas las estadísticas descriptivas vamos a realizar un modelo de aprendizaje no supervisado con estos 42 países y 29 variables, recordemos que existen dos tipos de modelos que usaron y estudiaron en clase, usaremos el método de k-means

En primer lugar vamos a observar los valores óptimos para k.

Observe que algo curioso es que el valor valor óptimo de k es 2, sin embargo, entre 2 o 3 clusters es indiferente el ASW que define qué tan razonables son los agrupamientos.

Teniendo lo anterior en cuenta, pasaremos a usar este valor de clusters para generar los centros en el método k-means. Tabla 1

El resultado anterior es poco conveniente, sin embargo después de varios intentos cambiando el número de clusters se decidió tener 4 clusters para realizar un mejor análisis. Tabla 2 Este resultado es un poco más favorable puesto que aunque tenemos 2 cluster con 1 solo país, también tenemos 11 países en un cluster y 29 en otro.

Ahora realizaremos este mismo método eliminando países tales como Colombia, Chile y Corea. El motivo de esta eliminación es porque son los países con datos más atípicos.Recordemos que en la parte de descriptivas al analizar el diagrama de caja por cada variable se encontraban muchos valores atípicos, dichos valores atípicos corresponden a los países dados anteriormente, esto afecta en el k-means en los siguientes factores:

Distorsión la métrica de distancia

Influyen en la posición de los centroides

Creación de clústeres irrelevantes

Eliminación de variable

Para analizar la correlación entre variables, se realizó la siguiente matriz:

Como pueden observar en la imagen, determinar a simple vista que variable se correlaciona menos con las demás variable es algo complejo, por este motivo el grupo de trabajo decidió realizar la suma de los valores absolutos de las correlaciones por cada variable y así determinar una lista ordenada de menor a mayor correlación, debido a la gran cantidad de variables.

Es complicado determinar cual variable tiene una mayor relación con las demás o, por el contrario, cuál no tiene relación con las demás, para resolver el problema se decidió realizar la suma de los valores absolutos de la correlación de cada variable con las demás obteniendo el siguiente resultado: tabla 17

Aquí podemos ver que la variable con menor correlación respecto a las demás es x26 (tasa de desempleo) y, para NO afectar la técnica de ACP, se decidió NO eliminar la variable que más se relaciona con las demás.Apoyado en la tabla de la suma de correlaciones y las descriptivas dadas anteriormente se eliminará la variable de x26 y los países: Colombia, Chile y Corea.

Luego de eliminar estos países y la variable se obtuvieron los siguientes resultados:

Aunque a simple vista parece que solo cambiaron la media de los países y la agrupación. Observemos el indicador de la silueta.

Gráfico de silueta sin eliminar paises:

Gráfico de silueta eliminando paises y variables:

Observe que tenemos una mejora significativa en el ASW, lo cual indica que los países tuvieron una mejor agrupación. Por lo cual se trabajará con la clusterización eliminando estos tres países y la variable. Ahora se realizará la correcta asignación de nombres a estos países, para esto se observan las medias en las 29 variables.

Nombre de los clusters con k-means

Teniendo en cuenta la comparacion del grafico de silueta donde se muestra el ASW. Ahora analicemos la tabla en la que se presentan las comparaciones de las medias de cada clúster y las 28 variables:

Considerando la información de la tabla y los valores de las medias, se procedió a asignar un nombre representativo a cada cluster.

Cluster 1: Economías estables y diversificadas.

Posible perfil: Este grupo podría representar economías con un equilibrio entre crecimiento moderado y estabilidad en variables clave como el consumo, exportaciones e importaciones. Tienden a ser economías diversificadas y maduras con un crecimiento sostenido.

Cluster 2: Economías en expansión acelerada.

Posible perfil: Este grupo podría estar compuesto por economías en crecimiento rápido, con aumentos significativos en el comercio, consumo y PIB. La presencia de indicadores altos en algunas de las variables podría reflejar una fase de expansión o desarrollo acelerado. Dado que Argentina está en el cluster 2, y considerando sus características económicas recientes (como alta inflación, fluctuaciones en el tipo de cambio y crecimiento desigual), esto refuerza la idea de que este grupo podría representar “Economías en Expansión Acelerada” o “Economías Volátiles en Crecimiento”. Estos nombres reflejan tanto el potencial de crecimiento rápido como los desafíos de estabilidad económica que podrían caracterizar al cluster.

Cluster 3: Economías en recesión o bajo crecimiento.

Posible perfil: Este grupo podría agrupar economías con desafíos de crecimiento, tal vez caracterizadas por bajas en exportaciones, consumo o inversión, lo que podría sugerir economías en recesión o con crecimiento lento.

Cluster 4: Economías dependientes de exportaciones o de alto riesgo.

Posible perfil: Este grupo podría reflejar economías que dependen fuertemente de exportaciones o que son vulnerables a variaciones económicas. Podrían tener alta volatilidad en algunas variables, como tasas de cambio o indicadores de consumo.

Analisis Multivariado (ACP)

Variabilidad explicada de los datos (scree plot).

Tabla 3 El score plot refleja cómo se distribuyen las observaciones en el espacio de las componentes principales y cómo cada una de estas dimensiones captura la variabilidad de los datos. Basado en el score plot y en la tabla de variabilidad acumulada,El grupo decidió trabajar con cuatro dimensiones ya que éstas explican el 77% de la variabilidad de los datos, lo que les daría una representación adecuada y significativa.

Gráfico de los individuos DIM 1 y DIM2

En este gráfico se muestra la contribución de cada individuo (país en este caso) a una dimensión dentro del espacio de componentes principales. Observando el gráfico de la primera dimensión, Dimensión 1, en el eje horizontal , se puede observar que dentro de esta dimensión, el país más representado es Japón, seguido por Estados Unidos. Por el contrario, si se observa la segunda dimensión, que se encuentra en el eje vertical, se puede notar que el país más representado en esa dimensión es Argentina. Esto se ve representado puntualmente en la siguiente tabla:

Tabla 4

Ahora, para analizar qué tanto contribuye una variable a una dimensión, se utiliza el gráfico de variables-PCA. La contribución de cada variable se mide por la longitud de los vectores y su proximidad a una dimensión. Observando el caso de la dimensión 2, notamos contribuciones de variables como:

x24 (Importaciones de bienes y servicios, deflactor (base de cuentas nacionales).

x23 (Exportaciones de bienes y servicios, deflactor (base cuentas nacionales).

x19 (Producto interno bruto, precios de mercado, deflactor, crecimiento).

x18 (Producto Interno Bruto, crecimiento del volumen).

x25 (Importaciones de bienes y servicios, deflactor (base de cuentas nacionales).

x8 (Gasto de consumo final privado, volumen).

Para el caso de la dimensión 1 tenemos que las variables con mayor contribución son:

x7 (Gasto de consumo final privado).

x10 (PIB, volumen, precios de mercado).

x12 (Formación bruta de capital fijo, total, volumen).

x6 (Gasto de consumo final del gobierno, volumen).

x9 (PIB, valor nominal, precios de mercado).

x14 (Exportaciones de bienes y servicios, volumen(base de cuentas nacionales)).

x13 (Importaciones de bienes y servicios, volumen(base de cuentas nacionales)).

El valor que aporta cada variable a la dimensión 1 y 2 se ve representado en las siguientes tablas. Tabla 5

Teniendo en cuenta las variables anteriores se le dará nombre a cada dimensión:

En el caso de la dimensión 1, se escogieron las primeras 7 variables para dar el nombre. Se observó que todas las variables están relacionadas con gasto, consumo,inversión y el comercio de una economía, por ende el nombre más adecuado es “Actividad Económica y Comercio Exterior”.

En el caso de la dimensión 2, se escogieron las 6 primeras variables para darle el nombre, observando que estás variables están relacionadas con comercio exterior, el Producto Interno Bruto (PIB) y los deflactores (que ajustan las cifras económicas para eliminar el efecto de la inflación), un nombre que se ajusta para esta dimensión sería Inflación y Desempeño Económico Internacional.

Teniendo en cuenta el nombre de la dimensión 1 y el gráfico PCA-biplot, se observa que Japón tiene un rendimiento muy alto o muy bajo en actividad económica y comercio exterior. Teniendo en cuenta el nombre de la dimensión 2, podemos observar que Argentina se ve muy bien representado por esta dimensión, lo que indica que este país se encuentra muy bien o muy mal en términos de Inflación y Desempeño Económico Internacional.

Para las dimensiones 3 y 4:

A partir de este gráfico se logra observar la contribución de cada uno de los individuos (países) para la dimensión 3 y dimensión 4. El eje horizontal del gráfico representa la dimensión 3, la cual está representada en mayor medida por Estados Unidos como lo indica su lejana posición en la zona izquierda del eje horizontal, seguido por Alemania. Por otro lado, el país que mejor se ve representado por la dimensión 4 es Irlanda, cuya ubicación se encuentra en la zona superior del eje vertical.

En esta gráfica se logra identificar que la dimensión 3 contribuye con el 16% de la varianza explicada, mientras que la dimensión 4 contribuye con el 9.3% de la varianza explicada.

Observemos puntualmente el valor de que tan bien representado se ven estos países en estas dimensiones: Tabla 6

Ahora observemos el gráfico de la contribución de las variables para la dimensión 3 y 4:

Este gráfico de análisis de componentes principales (PCA) permite identificar cuales son las variables que tienen mayor correlación con la dimensión 3 y 4 y con ello cómo contribuyen a las dimensiones anteriormente mencionadas. Las variables con mayor contribución para una dimensión son aquellas que tienen vectores con mayor longitud. Por consiguiente las variables que contribuyen a la dimensión 3 son:

x3 (Importaciones de bienes y servicios, volumen en USD).

x4 (Comercio de bienes y servicios, volumen en USD).

x5 (Exportaciones de bienes y servicios, volumen en USD).

Por otro lado, las variables que contribuyen a la dimensión 4 son:

x8 (Exportaciones netas).

x16 (Importaciones de bienes y servicios, crecimiento del volumen).

x1 (Saldo de cuenta corriente como porcentaje del PIB).

El valor de contribución de cada variable para las dimensiones 3 y 4 se ven representados en las siguientes tablas:

Tabla 7 Teniendo en cuenta las variables anteriores se le dará nombre a cada dimensión:

La dimensión 3 está definida principalmente por las primeras 4 variables de la tabla anterior:

x3 Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales).

x4 Comercio de bienes y servicios, volumen en USD.

x5 Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales).

x11 Producto Interno Bruto, volumen en USD, a paridades de poder adquisitivo constante.

Por lo cual se decide darle el nombre de Comercio y producción nacional esto con el fin de enfatizar la relación entre producción nacional (PIB) y actividad comercial internacional. En el caso de la dimensión 4 igualmente se tendrán en cuenta las primeras 4 variables, las cuales son:

x8 Exportaciones netas, contribuciones a los cambios en el PIB real.

x1 Saldo de cuenta corriente como porcentaje del PIB.

x16 Importaciones de bienes y servicios, crecimiento del volumen (base de cuentas nacionales).

x20 Formación bruta de capital fijo, total, crecimiento del volumen.

Las variables parecen estar relacionadas con el balance de comercio y cuenta corriente, así como con el crecimiento de componentes importantes del PIB, como las importaciones y la inversión (formación bruta de capital fijo). Estas variables reflejan aspectos de la dinámica económica interna y externa que afectan al crecimiento y estabilidad económica de un país.

Por lo cual la dimensión 4 se denomina como Indicadores de sostenibilidad y crecimiento económico esto porque están el balance externo como los componentes internos de crecimiento y estos son indicadores que influyen en la sostenibilidad del crecimiento económico.

Teniendo en cuenta el nombre de la dimensión 3 y el gráfico PCA-biplot, se deduce que que United States tiene buen Comercio y producción nacional asimismo Japón también destaca en esta dimensión, a un menor nivel que United States.

Teniendo en cuenta el nombre de la dimensión 4 y el gráfico PCA-biplot, se deduce que Irlanda tiene buenos indicadores de sostenibilidad y tiene un bajo crecimiento económico.

Ahora entonces, miramos como se ven los países que se eliminaron por ser valores atípicos Para el caso de Colombia en la dimensión 1, sabemos que los valores de Colombia en las variables que más contribucion tiene en dicha dimensión son los siguientes:

x7 (Gasto de consumo final privado):669347833139956,0.

x10 (PIB, volumen, precios de mercado):906570908869540.

x12 (Formación bruta de capital fijo, total, volumen):163862275489300.

x6 (Gasto de consumo final del gobierno, volumen):155871147854443.

x9 (PIB, valor nominal, precios de mercado):1177224742679170.

x14 (Exportaciones de bienes y servicios, volumen(base de cuentas nacionales)):118698656118607.

x13 (Importaciones de bienes y servicios, volumen(base de cuentas nacionales)):206929683499217.

Como podemos observar los países que se eliminaron tienen valores por encima o muy similares a los valores del país de referencia (Japón), lo que indica que estos países eliminados se ven bien representados en la dimensión 1.

Dimensión 2

Teniendo en cuenta las 6 variables que más contribuyen a la dimensión 2 que explica la Inflación y Desempeño Económico Internacional. Recordemos que las 6 variables que más contribuyen a esta dimensión son:

x24: Importaciones de bienes y servicios, deflactor (base de cuentas nacionales)

x23: Exportaciones de bienes y servicios, deflactor (base cuentas nacionales)

x19: Producto interno bruto, precios de mercado, deflactor, crecimiento

x18: Producto interno bruto, valor nominal, crecimiento

x25: Producto interior bruto, precios de mercado, deflactor

x8: Exportaciones netas, contribuciones a las variaciones del PIB real

En este caso el país de que más se representa por esta dimensión es Argentina y será tomado como país de referencia para compararlo con los países eliminados por medio del siguiente gráfico.

Dimensión 3

Teniendo en cuenta que en esta dimensión las variables con mayor contribución fueron:

x3 Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales).

x4 Comercio de bienes y servicios, volumen en USD.

x5 Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales).

x11 Producto Interno Bruto, volumen en USD, a paridades de poder adquisitivo constante.

En este caso el país que más se representa por esta dimensión es Estados Unidos y será tomado como país de referencia para compararlo con los países eliminados por medio del siguiente gráfico de barras.

De este gráfico podemos observar que no hay información suficiente para decir que estos países se verían bien representados por la dimensión, ya que podrían ser valores opuestos (mínimos) a comparación de Estados Unidos que si destaca por su valor elevado en estas variables.

Dimensión 4

En la dimensión 4 las variables que más contribuyen son:

x8 Exportaciones netas, contribuciones a los cambios en el PIB real.

x1 Saldo de cuenta corriente como porcentaje del PIB.

x16 Importaciones de bienes y servicios, crecimiento del volumen (base de cuentas nacionales).

x20 Formación bruta de capital fijo, total, crecimiento del volumen.

Además el país que es bien representado en esta dimensión es irlanda siendo este el valor de referencia para comparar con los países eliminados por medio del siguiente gráfico:

Este gráfico muestra que no contamos con suficiente información para afirmar que estos países estén adecuadamente representados por esta dimensión, ya que sus valores podrían ser considerablemente bajos en comparación con Irlanda, que destaca en estas variables.

CLUSTERIZACIÓN ACP

Ahora se realizará la clusterización teniendo en cuenta estos 4 factores:

Se obtuvieron 4 clusters de 1 país, estos 4 países son justamente los que representan muy bien las dimensiones 1-4, es por esto que se obtiene este resultado en el dendrograma Desde otro punto de vista las agrupaciones se ven así:

En este gráfico de la dimensión 1 y 2 se observa que los grupos 1,2 y 3 no son bien representados por estas dimensiones, mientras que los grupos 4 y 6 son representados fuertemente por estas, esto se debe a que estos factores explican muy bien los países atípicos.

En este gráfico de la dimensión 3 y 4 se observa que los grupos 1, 2 y 6 no son bien representados por estas dimensiones, mientras que los grupos 5 y 3 son representados fuertemente por estas.

Nombre para los 6 clusters:

Para el cluster 1, se considera el nombre de Economías de crecimiento moderado, esto se debe a que estos países tienen un crecimiento menor al promedio en PIB (x17), exportaciones (x15), importaciones (x16) y consumo privado (x21). Estas economías tienen un desarrollo económico estable, pero menos dinámico, con una menor dependencia del comercio exterior (x8) y una expansión interna más lenta (x17). como se observa en el análisis de media para la clase 1:

Tabla 8
Tabla 8

El cluster 2 agrupa a economías de crecimiento dinámico, con un fuerte aumento en consumo privado (x21), exportaciones (x15) e importaciones (x16). Aunque experimentan un crecimiento económico robusto (x17), tienen volúmenes más bajos en comercio exterior (x4, x5) y déficits en cuenta corriente (x1), lo que sugiere que dependen más de la demanda interna y las importaciones para su expansión. como se observa en el análisis de media para la clase 2:

Tabla 9
Tabla 9

Irlanda(cluster 3) tiene una economía altamente orientada hacia las exportaciones (x8), con un crecimiento robusto del PIB (x17) y un superávit en cuenta corriente (x1). Sin embargo, presenta un crecimiento limitado en las importaciones (x16) y una baja inversión en capital fijo (x20). como se observa en el análisis de media para la clase 3:

Tabla 10
Tabla 10

Japan(cluster 4) se puede describir como “Economías de fuerte crecimiento impulsadas por el consumo y la inversión interna”. Estas economías muestran un alto gasto público (x6), un crecimiento robusto del PIB en términos reales (x10), un consumo privado elevado (x7) y una gran inversión en capital fijo (x12). Aunque las exportaciones (x14) e importaciones (x13) tienen un crecimiento positivo, el énfasis está en la demanda interna como motor del crecimiento económico. como se observa en el análisis de media para la clase 4:

Tabla 11
Tabla 11

United States(cluster 5) se puede describir como “Economías con alta dependencia del empleo y la inversión interna”. Este grupo muestra un alto nivel de inversión en capital fijo (x11), importaciones significativas (x3, x4, x5), y una fuerza laboral en crecimiento (x27, x28)*, lo que sugiere que estas economías están centradas en la creación de empleo y el fortalecimiento de su infraestructura interna. como se observa en el análisis de media para la clase 5:

Tabla 12
Tabla 12

Argentina(cluster 6) se puede describir como “Economías con fuerte enfoque en el comercio exterior y control de precios”. Este grupo tiene exportaciones e importaciones importantes (x23, x24) y un alto nivel de deflactores del PIB (x25, x19, x18), lo que sugiere un enfoque fuerte en el comercio exterior y la gestión de la inflación o los precios de mercado. También se observa un alto nivel de tasa de desempleo (x28, x27) y una baja formación de capital (x20), indicando que aunque están fuertemente involucrados en el comercio global, su crecimiento económico está siendo afectado por el desempleo y la falta de inversión en infraestructura. como se observa en el análisis de media para la clase 6:

Tabla 13
Tabla 13

Por último observemos el índice de calidad de silhouette para esta agrupación de 6 clusters en base a los factores.

Conclusiones

  1. La base de datos contiene numerosos datos atípicos, lo que dificulta una agrupación equilibrada de los países, ya que estos valores extremos generan mucho ruido en el modelo. Incluso modelos más robustos, como k-medoids, siguen siendo susceptibles a la influencia de estos datos atípicos.

  2. La dimensionalidad de los modelos se redujo de manera significativa, pasando de 29 variables a solo 4 factores principales. Esta reducción se logró manteniendo un buen nivel de calidad en la segmentación de los datos, con un índice de Average Silhouette Width (ASW) que disminuyó de 0.57 a 0.42, lo cual indica una adecuada separación de los clusters, aunque con algo más de solapamiento comparado con el modelo original, esto debido a que los 4 factores explican el 77% de la variabilidad.

  3. En el análisis de aprendizaje no supervisado realizado mediante ACP se logró identificar y analizar el conjunto de variables que aportan para cada una de las 4 dimensiones, logrando así determinar y sintetizar un nombre o concepto global para cada una de ellas, las cuales son:

Dimensión 1: actividad económica y comercio exterior.

Dimensión 2: inflación y desempeño económico internacional.

Dimensión 3: comercio y producción nacional.

Dimensión 4: indicadores de sostenibilidad y crecimiento económico.

Referencias

  1. Joaqui Barandica, O. (2023, April 16). Data Visualization in R. Retrieved from https://www.joaquibarandica.com/post/datavizr/

  2. Paredes, D. (2023). Capítulo 11: Aprendizaje No Supervisado. En Data Science con R. Recuperado de https://bookdown.org/dparedesi/data-science-con-r/aprendizaje-no-supervisado.html

  3. Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.

  4. Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley. doi:10.1002/9780470977811.

  5. IT Masters Mag. (2023). Aprendizaje no supervisado: Qué es y cómo funciona. Recuperado de https://www.itmastersmag.com/noticias-analisis/aprendizaje-no-supervisado-que-es-y-como-funciona/