INTRODUCCIÓN

El análisis de datos económicos es esencial para comprender la dinámica de las economías y la relación entre diferentes variables que las componen. En este contexto, las técnicas estadísticas multivariantes ofrecen un conjunto robusto de herramientas para abordar la complejidad inherente a las interrelaciones entre múltiples variables. Este trabajo tiene como objetivo explorar los datos económicos de un conjunto de países, identificar patrones y relaciones subyacentes, y clasificar a los países en grupos homogéneos utilizando técnicas avanzadas de análisis multivariantes.

El análisis abarca varias etapas que incluyen la estandarización de los datos, la aplicación de técnicas de clustering (agrupamiento), el análisis de componentes principales (PCA) y el análisis jerárquico. Estas herramientas proporcionan una visión integral de la estructura de los datos y permiten extraer conclusiones significativas sobre el comportamiento de las variables económicas en diferentes contextos nacionales.

Este informe presenta los resultados de un análisis de componentes principales (ACP) y clustering aplicados a un conjunto de datos previamente definido. Los objetivos principales de este análisis fueron reducir la dimensionalidad de los datos, interpretar la varianza explicada por cada componente y clasificar las observaciones en grupos con patrones similares para identificar características relevantes.

Objetivo del Trabajo

El propósito principal de este análisis es examinar cómo diversas variables económicas (como el Producto Interno Bruto, la tasa de desempleo, las exportaciones e importaciones, entre otras) interactúan entre sí y cómo estas relaciones pueden ser utilizadas para clasificar a los países en grupos similares según sus características económicas. Para ello, se emplearon métodos como el K-means, que clasifica los países en clusters basados en la similitud de sus indicadores económicos, y el análisis de componentes principales (PCA), que reduce la dimensionalidad de los datos y permite identificar los componentes más relevantes que explican la mayor parte de la variabilidad de los datos.

Contexto de los Datos

Los datos utilizados en este análisis provienen de un archivo de Excel denominado Caso3_DatosEcon.xlsx, que contiene información sobre una serie de variables económicas relevantes para una muestra de 42 países. Estas variables incluyen el saldo de la cuenta corriente como porcentaje del PIB, el tipo de cambio, el volumen de exportaciones e importaciones de bienes y servicios, el gasto público y privado, y varias métricas relacionadas con el Producto Interno Bruto (PIB), entre otras.

Dado que las variables económicas suelen tener escalas diferentes, se procedió a estandarizar los datos antes de aplicar los métodos de análisis. La estandarización es crucial para evitar que las variables con unidades de medida más grandes dominen el análisis y distorsionen los resultados.

METODOLOGÍA

En este trabajo se utilizaron dos técnicas estadísticas clave para el análisis y clasificación de los datos económicos: Análisis de Componentes Principales (ACP) y Clusterización (específicamente el algoritmo K-means y el método jerárquico de Ward). A continuación, se presenta una breve descripción de ambas técnicas y su aplicación en el análisis de datos.

Para realizar este análisis, se emplearon varias técnicas estadísticas y gráficas, que incluyen:

  • Estandarización de Datos: Para asegurar que todas las variables contribuyan igualmente al análisis, se aplicó la estandarización mediante el cálculo del z-score, que transforma los datos a una escala sin unidades.

  • Clustering (Agrupamiento): Se utilizó el algoritmo de K-means para clasificar a los países en grupos según su similitud en las variables seleccionadas. Se determinó el número óptimo de clusters utilizando el método del “codo” y la técnica de silhouette. Posteriormente, se aplicó el modelo con 3 clusters.

  • Análisis de Componentes Principales (PCA): El PCA permitió reducir la dimensionalidad de los datos, identificando las combinaciones lineales de variables que explican la mayor parte de la varianza en el conjunto de datos. Este análisis proporciona una forma de visualizar las relaciones entre las variables y las observaciones en un espacio de menor dimensión.

  • Análisis Jerárquico: Se empleó un análisis de agrupamiento jerárquico para explorar la estructura de los datos de manera más detallada, generando un dendrograma que ilustra las relaciones jerárquicas entre los países.

  • Visualización de Resultados: Se realizaron diversas representaciones gráficas, incluyendo mapas de calor de las correlaciones, diagramas de caja (boxplots), y gráficos de los componentes principales, con el objetivo de facilitar la interpretación y la visualización de los resultados.

Contribución del Estudio

Este análisis tiene como objetivo proporcionar una comprensión más profunda de la estructura económica global al clasificar a los países según sus características económicas más relevantes. Las técnicas de clustering y PCA permiten identificar patrones ocultos en los datos, mientras que la visualización facilita la interpretación de estos patrones. Además, la metodología empleada es flexible y puede ser aplicada a otros conjuntos de datos económicos, permitiendo la comparación entre diferentes regiones o periodos de tiempo.

Por último, el uso de herramientas estadísticas avanzadas, como el PCA y el K-means, permite no solo realizar un análisis exploratorio, sino también construir modelos que pueden ser utilizados para la predicción y la toma de decisiones en políticas económicas. A través de esta metodología, se pueden identificar los principales factores que afectan el crecimiento económico de los países y, en consecuencia, diseñar estrategias basadas en estos hallazgos.

En resumen, este trabajo es una exploración integral de los datos económicos a través de técnicas estadísticas multivariantes, proporcionando una base sólida para futuras investigaciones y análisis de políticas económicas.

Análisis de Componentes Principales (ACP)

El Análisis de Componentes Principales (ACP) es una técnica de reducción de dimensionalidad que transforma un conjunto de variables posiblemente correlacionadas en un conjunto menor de variables no correlacionadas denominadas componentes principales. El objetivo principal del ACP es encontrar las combinaciones lineales de las variables originales que expliquen la mayor parte de la varianza en los datos.

Este análisis se aplica en contextos donde se desea simplificar la interpretación de grandes volúmenes de datos, manteniendo la mayor cantidad de información posible. En este trabajo, el ACP fue utilizado para:

  • Reducir la dimensionalidad: La base de datos contenía múltiples variables económicas, muchas de las cuales estaban correlacionadas entre sí. El ACP permitió condensar esta información en pocos componentes principales, facilitando su interpretación.
  • Identificar patrones y relaciones: Los componentes principales proporcionan una visión clara de cómo se agrupan las variables y observaciones, lo que permite identificar las relaciones subyacentes entre las variables económicas y los países.
  • Visualización: A través de gráficos como biplots y diagramas de componentes, se visualizó la distribución de los países según sus características económicas, ayudando a interpretar las similitudes y diferencias entre ellos.

La técnica ACP también calcula la varianza explicada por cada componente, lo que permite determinar qué proporción de la variabilidad de los datos se explica con cada componente. Esto es crucial para elegir cuántos componentes considerar en el análisis y qué tan representativos son los resultados.

Clusterización

La clusterización es una técnica de agrupamiento que tiene como objetivo clasificar un conjunto de datos en grupos homogéneos (clusters) basados en la similitud entre las observaciones. En este análisis se emplearon dos enfoques para realizar el agrupamiento de los países:

K-means

El algoritmo K-means es uno de los métodos más utilizados para realizar clustering, basado en la partición de los datos en un número predefinido de clusters (en este caso, tres). El proceso de K-means implica los siguientes pasos:

  • Inicialización: Se seleccionan aleatoriamente k puntos como centros de los clusters.

  • Asignación: Cada observación se asigna al cluster cuyo centro está más cercano.

  • Actualización: Los centros de los clusters se recalculan como el promedio de las observaciones asignadas a cada cluster.

  • Repetición: El proceso se repite hasta que los centros de los clusters ya no cambian significativamente o se alcanza un número máximo de iteraciones.

Este método es útil para identificar grupos de países con características económicas similares. En este trabajo, el número óptimo de clusters se determinó mediante los métodos de silhouette (que evalúa la calidad de la partición) y el codo (que analiza la suma de las distancias cuadradas dentro de los clusters).

Método Jerárquico (Ward)

El método jerárquico de Ward es una técnica de clustering que crea una jerarquía de clusters, donde en cada paso los dos clusters más similares se combinan. La diferencia clave en este método es cómo se mide la distancia entre los clusters:

Ward minimiza la suma de los cuadrados dentro de cada grupo, lo que favorece la formación de clusters compactos y balanceados. Este método genera un dendrograma, que es un diagrama de árbol que ilustra cómo se agrupan las observaciones a medida que se combinan los clusters. Este enfoque es útil para explorar la estructura de los datos de manera más detallada. El dendrograma resultante proporciona una representación visual de las relaciones jerárquicas entre los países, permitiendo decidir el número óptimo de clusters mediante el corte del árbol en un nivel adecuado.

Aplicación en este Trabajo

En el contexto de este trabajo, tanto el ACP como la clusterización (K-means y Ward) fueron aplicados al conjunto de datos económicos de varios países. A través del ACP, se identificaron los componentes principales que explican la mayor parte de la variabilidad de las variables económicas. Luego, utilizando el algoritmo de K-means, los países fueron clasificados en tres grupos según sus características económicas similares.

El análisis jerárquico, por su parte, proporcionó una visión adicional sobre la estructura de agrupamiento, permitiendo comparar los resultados obtenidos con K-means y ofreciendo una representación más detallada de las relaciones entre los países.

Ambas técnicas proporcionaron una comprensión más profunda de los datos, ayudando a identificar patrones y a clasificar a los países en grupos significativos, lo que tiene importantes implicaciones para el análisis de políticas económicas y la toma de decisiones.

Variables en el Conjunto de Datos

x1: Saldo de cuenta corriente como porcentaje del PIB Esta variable mide la diferencia entre el valor de las exportaciones e importaciones de bienes, servicios, ingresos y transferencias corrientes de un país, expresado como un porcentaje de su PIB. Es un indicador clave de la salud económica de un país, reflejando su capacidad para generar ingresos externos frente a sus gastos.

x2: Tipo de cambio, moneda nacional por USD Representa el valor de la moneda nacional de cada país en términos de dólares estadounidenses. Esta variable es fundamental para entender el poder adquisitivo relativo y la competitividad externa de los países.

x3: Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales) Mide el valor total de las importaciones de bienes y servicios de un país en términos de dólares estadounidenses. Este indicador refleja la demanda interna de productos y servicios del exterior.

x4: Comercio de bienes y servicios, volumen en USD Representa el valor total de las exportaciones e importaciones combinadas de un país, proporcionando una medida del nivel de actividad comercial internacional.

x5: Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales) Mide el valor de las exportaciones de un país en términos de USD. Este es un indicador importante del rendimiento económico y la competitividad en los mercados globales.

x6: Gasto final del gobierno, volumen Refleja el total de los gastos realizados por el gobierno en la producción de bienes y servicios, excluyendo las transferencias. Este indicador es relevante para evaluar la política fiscal y el tamaño del sector público.

x7: Gasto final privado, volumen Mide el total de los gastos realizados por los hogares y las empresas en bienes y servicios. Es un indicador del nivel de consumo y de inversión privada en la economía.

x8: Exportaciones netas, contribuciones al cambio en el PIB real Representa la contribución de las exportaciones netas (exportaciones menos importaciones) al crecimiento económico de un país.

x9: Producto Interno Bruto (PIB), valor nominal, precios de mercado El PIB es una medida clave del tamaño y la salud de la economía de un país. Se calcula a precios de mercado, reflejando el valor total de los bienes y servicios producidos en la economía.

x10: Producto Interno Bruto (PIB), volumen, precios de mercado El PIB en términos de volumen ajusta el valor nominal del PIB a las fluctuaciones de los precios, lo que permite medir el crecimiento económico real.

x11: Producto Interno Bruto (PIB), volumen en USD, a paridades de poder adquisitivo constantes Este indicador mide el PIB ajustado por las diferencias en los niveles de precios entre países, utilizando las paridades de poder adquisitivo (PPA) para obtener una comparación más precisa entre economías.

x12: Formación bruta de capital fijo, total, volumen Refleja el valor total de las inversiones en activos fijos, como maquinaria, edificios y otros bienes de capital, que contribuyen al crecimiento económico a largo plazo.

x13: Importaciones de bienes y servicios, volumen (base de cuentas nacionales) Similar a la variable x3, mide el volumen total de las importaciones, pero con una base de cuentas nacionales ajustada.

x14: Exportaciones de bienes y servicios, volumen (base de cuentas nacionales) Similar a la variable x5, refleja el volumen de las exportaciones, pero ajustado por la base de cuentas nacionales.

x15: Exportaciones de bienes y servicios, volumen, crecimiento (base de cuentas nacionales) Mide el crecimiento en el volumen de exportaciones, proporcionando una indicación del desempeño dinámico en el comercio internacional.

x16: Importaciones de bienes y servicios, volumen, crecimiento (base de cuentas nacionales) Similar a la variable anterior, mide el crecimiento de las importaciones, lo que puede reflejar cambios en la demanda interna y la relación comercial con otros países.

x17: Producto Interno Bruto (PIB), volumen, crecimiento Mide el crecimiento real del PIB, ajustado por inflación, proporcionando una indicación del ritmo de expansión o contracción de la economía.

x18: Producto Interno Bruto (PIB), valor nominal, crecimiento Similar a la variable x17, pero ajustado a valores nominales, mide el crecimiento económico sin eliminar los efectos de la inflación.

x19: Producto Interno Bruto (PIB), precios de mercado, deflactor, crecimiento Refleja el crecimiento del PIB ajustado por el deflactor del PIB, una medida que corrige el impacto de la inflación sobre el valor del PIB.

x20: Formación bruta de capital fijo, total, volumen, crecimiento Mide el crecimiento en las inversiones en capital fijo, lo que indica la capacidad de una economía para mejorar sus infraestructuras y aumentar su producción futura.

x21: Gasto final privado, volumen, crecimiento Mide el crecimiento en el gasto final privado, reflejando los cambios en el consumo y la inversión por parte de los hogares y empresas.

x22: Gasto final del gobierno, volumen, crecimiento Mide el crecimiento en el gasto gubernamental, indicando cambios en las políticas fiscales y el tamaño del sector público.

x23: Exportaciones de bienes y servicios, deflactor (base de cuentas nacionales) Ajusta el valor de las exportaciones por los cambios en los precios, proporcionando una medida del valor real de las exportaciones.

x24: Importaciones de bienes y servicios, deflactor (base de cuentas nacionales) Similar a la variable anterior, ajusta las importaciones por los cambios en los precios.

x25: Producto Interno Bruto (PIB), precios de mercado, deflactor Ajusta el PIB por el deflactor de precios, permitiendo medir el valor real de la producción económica.

x26: Tasa de desempleo Representa el porcentaje de la población activa que se encuentra desempleada, siendo un indicador clave de la salud del mercado laboral y la estabilidad económica.

x27: Empleo total (según encuesta de fuerza laboral) Mide el número total de personas empleadas en la economía, proporcionando información sobre la absorción de empleo.

x28: Fuerza laboral Refleja el total de personas disponibles para trabajar, tanto ocupadas como desempleadas, y es un indicador clave de la capacidad laboral de un país.

x29: Tasa de interés a corto plazo Representa la tasa de interés establecida por el banco central, lo que influye en el costo del crédito y las decisiones de inversión en la economía

Se puede observar una considerable variabilidad en los valores mínimos, máximos y percentiles entre las diferentes variables. Esto sugiere que las variables analizadas tienen diferentes rangos de valores y distribuciones, aunque no se pueden identificar valores atípicos específicos, pueda que existan algunas variables con valores extremos que podrían influir en los resultados finales. Por último, la distribución de los datos parece ser bastante dispersa, lo que indica que los valores están relativamente extendidos a lo largo del rango.

La diferencia notable entre los valores máximo y mínimo en variables como x29 (de -0.74 a 18.71) indica posibles valores atípicos en algunos países, lo que puede estar relacionado con circunstancias económicas inusuales o factores externos.

Los gráficos sugieren una separación entre algunos países con características muy particulares (como Corea y Colombia) en comparación con un grupo central de países (como Alemania, Japón, etc.), que presentan similitudes entre ellos.

RESULTADOS

El análisis realizado en este trabajo, utilizando técnicas de Análisis de Componentes Principales (ACP) y Clusterización (K-means y Ward), ha proporcionado una visión clara y detallada de las economías de diferentes países a través de un conjunto de variables económicas clave tales como:

  • La primera componente principal captura la mayor parte de la varianza en los datos, seguida por las siguientes componentes, aunque con una contribución mucho menor.
  • Los gráficos de individuos muestran cómo se distribuyen los países en el espacio de los componentes principales. Cada punto representa un país, y su posición está determinada por los valores de los primeros dos componentes principales, que son los que capturan la mayor parte de la varianza.
  • Se observó cómo las variables contribuyen a las componentes principales. Variables como el Producto Interno Bruto (PIB) y el gasto final del gobierno tienen una contribución significativa a los primeros componentes, lo que sugiere que estos factores son clave en la explicación de las diferencias entre los países en el conjunto de datos.

El cluster nos permite realizar un analisis exploratorio donde tenemos distintas observaciones que son agrupadas dependiendo de sus características en diferentes clusters.

Se presenta el análisis de los clusters, recordemos que nuestro conjunto de datos es de 29 variables las cuales las vemos representadas en el eje X, y los valores de las variables en el eje Y. Se presenta una agrupación de 3 colores distintos donde se tienen los grupos 1,2,3; Cada boxplot representa la distribución de los valores por cada cluster en cada variable.

  • Cluster rojo: Se tiene más variabilidad en las variables como x20 y x5. lo cual representa un comportamiento atípico

  • Cluster verde: Este grafico indica que este grupo puede tener menos variabilidad en comparación con los otros.

Su representación es más estable, lo cual sugiere que los datos dentro de este cluster pueden compartir una tendencia central con menos desviaciones extremas, esto concluye en un cluster más uniforme

  • Cluster azul: Este cluster muestra una mayor concentración en valores cercanos a la mediana de las variables. En general, los valores de este grupo no presentan picos tan altos ni bajos en comparación con el Cluster 1, lo cual indica que sus datos tienden a ser más homogéneos.

Análisis de diagrama de cajas y bigotes

Los valores de las variables x1 a x29 evidencia una distribución de dichos valores, donde cada caja muestra la dispersión de los datos por una variable específica y brinda información sobre la mediana, rango y valores atípicos.

Si se analiza el gráfico podemos evidenciar que Para algunas variables como x1, x2 x3,x5 x15, presenta cajas y bigotes extendidos sugiriendo una variabilidad mayor y una asimetría en la distribución de sus propios valores. En comparación con las variables x6,x10,x22,x24,x25 tienen cajas estrechas, y esto indica que los valores están concentrados cerca a la mediana.

En consideración con los valores atípicos, las variables sugieren diferencias considerables entre esos países específicamente en esos indicadores, lo que es importante para identificar qué grupos específicos de países tienen características únicas, concluyendo así que las variables x1 a x6 y x15 parecen tener una mayor dispersión y valores extremos en comparación con las demás

Se pudo observar que mediante el método K-means pudimos determinar el número óptimo de clusters gracias a que se utilizo el método de la silueta y el método del codo, que indicaron que el número más adecuado de clusters era 3. Después de aplicar el algoritmo K-means con 3 clusters, se asignaron los países a uno de estos tres grupos. La visualización de los resultados mostró una clara separación entre los clusters en el espacio de los primeros dos componentes principales.

  • Cluster 1: Compuesto por países con una economía robusta, con altos niveles de PIB y exportaciones.
  • Cluster 2: Países con un PIB moderado y menores niveles de exportación y gasto.
  • Cluster 3: Países con características más débiles en términos de PIB, exportaciones y gasto público, indicando economías en desarrollo o con estructuras más dependientes de importaciones

## 
## Call:
## hclust(d = dist)
## 
## Cluster method   : complete 
## Distance         : euclidean 
## Number of objects: 42

Para interpretar el dendrograma debe tenerse en consideración las siguientes pautas: La longitud de las ramas que conectan cada uno de los nodos en el dendrograma representa la distancia entre los clusters o elementos agrupados.

Cuanto más corta sea la longitud de las ramas, mayor es la similitud entre los países agrupados.

Los clusters se forman basándose en la similitud entre los países para las variables consideradas en este análisis. Aquellos que comparten características más cercanas están agrupados más cerca en el dendrograma, mientras que aquellos que son más diferentes tienen una mayor separación.

Este dendrograma proporciona una visión jerárquica de cómo se agrupan los países y muestra patrones o similitudes que podrían ser útiles.

El método Jerárquico (Ward) hizo un complemento al análisis de K-means, que generó un dendrograma mostrando las relaciones entre los países. El dendrograma reveló la existencia de 3 grandes grupos que coinciden con los identificados en la clusterización K-means.

La matriz de correlación es una herramienta fundamental para el análisis de problemas multivariantes, ya que evalúa la relación lineal entre los conjuntos de variables utilizadas. Este gráfico permite identificar patrones y relaciones entre las variables, lo cual facilita la reducción de dimensionalidad en modelos de Análisis de Componentes Principales (ACP).

La presencia de relaciones tanto positivas como negativas entre las variables proporciona información valiosa sobre las interacciones y posibles compensaciones en el conjunto de datos, lo cual es útil para la interpretación y simplificación en el análisis multivariante.

La diagonal de la matriz muestra una correlación perfecta de cada variable consigo misma, lo cual es representado por una línea fuerte en color rojo oscuro. Además, se observan algunas áreas en azul, que indican una correlación negativa fuerte entre ciertas variables; esto significa que, cuando una de estas variables aumenta, la otra tiende a disminuir.

Por otro lado, los valores altos en rojo indican una fuerte correlación positiva entre las variables, mientras que los valores en azul fuerte indican una fuerte correlación negativa. Los colores claros o cercanos al blanco representan correlaciones débiles o inexistentes.

## Warning: 'bar' objects don't have these attributes: 'mode'
## Valid attributes include:
## '_deprecated', 'alignmentgroup', 'base', 'basesrc', 'cliponaxis', 'constraintext', 'customdata', 'customdatasrc', 'dx', 'dy', 'error_x', 'error_y', 'hoverinfo', 'hoverinfosrc', 'hoverlabel', 'hovertemplate', 'hovertemplatesrc', 'hovertext', 'hovertextsrc', 'ids', 'idssrc', 'insidetextanchor', 'insidetextfont', 'legendgroup', 'legendgrouptitle', 'legendrank', 'marker', 'meta', 'metasrc', 'name', 'offset', 'offsetgroup', 'offsetsrc', 'opacity', 'orientation', 'outsidetextfont', 'selected', 'selectedpoints', 'showlegend', 'stream', 'text', 'textangle', 'textfont', 'textposition', 'textpositionsrc', 'textsrc', 'texttemplate', 'texttemplatesrc', 'transforms', 'type', 'uid', 'uirevision', 'unselected', 'visible', 'width', 'widthsrc', 'x', 'x0', 'xaxis', 'xcalendar', 'xhoverformat', 'xperiod', 'xperiod0', 'xperiodalignment', 'xsrc', 'y', 'y0', 'yaxis', 'ycalendar', 'yhoverformat', 'yperiod', 'yperiod0', 'yperiodalignment', 'ysrc', 'key', 'set', 'frame', 'transforms', '_isNestedKey', '_isSimpleKey', '_isGraticule', '_bbox'

La varianza explicada por los componentes principales es la siguiente:

Componente 1: 29.22%

Componente 2: 25.76%

Componente 3: 14.79%

Componente 4: 8.24%

Componente 5: 7.51%

Componente 6: 5.18%

Componentes Restantes: Contribuyen en menor proporción

Interpretación: Los primeros componentes principales capturan una parte significativa de la varianza total de los datos, con los tres primeros explicando aproximadamente el 70% de la variabilidad. Esto indica que los datos se pueden describir apropiadamente con menos variables, lo cual hace posible reducir el volumen de los datos a analizar durante el desarrollo del modelo.

En este grafico se presenta una visión simplificada de las relaciones y diferencias entre países según las variables económicas que seleccionamos para el análisis. Las posiciones nos muestran las semejanzas y diferencias y los colores representan las dimensiones de las características económicas. Es aplicado a un conjunto de datos que se reduce en dos dimensiones (1,2) los cuales explican el 29.2% y el 25.8% de la varianza total.

La dim1 captura un conjunto de características con mayor variación de los paises, Los países situados a la derecha y a la izquierda del gráfico difieren significativamente en estas características.

por otro lado la Dim2 explica la proporcion de la varianza la cual no se incluye en Dim1, son dimensiones distintas.

El gráfico se divide en 4 cuadrantes:

superior derecho: comparten similitudes en la Dim1 y Dim2

centro del grafico: Canada mexico y australia presentan un comportamiento donde no se tienen valores extremos en las carcteristicas principales evaluadas en Dim1 y Dim2 por lo tanto se puede decir ue tienen caracteristicas promedio en comparacion a los demas.

Inferior Izquierdo: Japon y Corea tienen caracteristicas economicas considerablemente distintas.

Inferior derecho: Colombia y chile se ubican ms pronunciados debido a que difieren en cierta parte en las dimensiones

Análisis (Análisis de componentes Principales):

Este análisis permite visualizar cómo afectan las diferente variables a los componentes seleccionados, en este caso Dim1(29,2% de varianza explicada) y el Dim3 (14,8% de varianza explicada), ambas dimensiones capturan aproximadamente el 44% de la varianza de los datos.

Este gráfico muestra las correlaciones entre las variables, y cada variable se puede ver como un vector (una flecha) y la dirección, a su vez la longitud de cada vector indican su importancia a los componentes iniciales.

También se puede observar una contribución de variables por los colores que muestran, el color que va degradado de azul a rojo evidencia la contribución de las variables a los componentes principales. Se puede observar cómo x5,x3,x4,x11 y x27 que están en rojo tienen una alta contribución y esto se puede ver en la dimensión en Dim1.

El Análisis muestra las variables (países) proyectadas en el espacio definido por los dos primeros componentes (Dim1 y Dim2) que juntos explican el 55% de la varianza de ambos componentes. Los países y las variables que se encuentran distribuidas en esas dimensiones indican la relación en función de las características previamente estudiadas.

También se puede analizar que existen países en posiciones muy similares (Alemania, Francia, Países Bajos, Dinamarca y Bélgica) estas variables tienen características similares en cuanto a lo que se estudia por lo que están cerca del centro del gráfico.

En uno de los extremos del gráfico observamos a Japón y Corea los cuales se distinguen al resto de países lo que nos muestra que su relación no es tan fuerte o no tienen características similares en cuanto al estudio de las variables, por otro lado se encuentra Colombia y Chila aparecen alejados hacia la derecha lo cual evidencia que son atípicos o al igual que los países mencionados anteriormente tienen características diferentes en relación con las variables agrupadas.

La correlación entre variables dentro del gráfico apuntan en la misma dirección (por ejemplo x3,x4,x5 y x11 en el lado izquierdo) se encuentran correlacionadas entre sí y las variables con opuestas direcciones están negativamente correlacionadas, esto significa que los países con altos valores en las variables de un lado en este caso el izquierdo tendrán a tener valores altos y bajos valores en la parte derecha

Los puntos representan diferentes países, que están ubicados en el espacio en función de sus perfiles económicos según las variables que se incluyen en el analisis Se presenta un analisis PCA que aplicamos a un conjunto de paises, la Dim1 y Dim2 representan las dos primeras componentes principales, que juntas explican el 55% de la variabilidad total de los datos, esto nos ayuda a transformar un conjunto de variables posiblemente correlacionadas en un conjunto menor de variables no correlacionadas, manteniendo la mayor cantidad posible de variabilidad original de los datos. Observamos que argentina tiene una posición alejada en la dim1, este país presenta características económicas las cuales hacen que este país tome dicho comportamiento. podemos hablar de la inflación de este país que es bastante elevada. Países como Japón, Dinamarca, Bélgica están situados cerca del centro del gráfico. Esto indica que estos países tienen valores promedio en las variables principales del análisis, sin presentar características extremas(como en argentina, que se considera como un outlier) Comparten una economía con indicadores relativamente estables y comparables a los de otros países en el centro, lo cual se refleja en su posición cercana.

Texto alternativo Debido al análisis ya realizado se concluyó que lo más factible era clasificar en tres clusters los países.

Con la muestra seleccionada para el test se obtuvo que:

  • Grupo 1 (Corea, Alemania, Japón):

Este grupo incluye economías industrializadas y desarrolladas con fuerte orientación a la manufactura, innovación tecnológica y exportaciones. Variables clave, como indicadores relacionados con producción y comercio, podrían ser altas en este grupo.

Observando el dendrograma se puede visualizar la distancia entre estos países, la cual es relativamente pequeña, lo que indica que tienen características similares entre sí según las variables analizadas.

  • Grupo 2 (Hungría, Islandia, Israel, Luxemburgo, Estonia, Grecia, etc.):

Estos países tienden a ser economías diversificadas pero no necesariamente con las mismas características de potencia industrial que el grupo 1 Pueden presentar características de economías abiertas al comercio y servicios, con un desarrollo moderado

Este es un cluster grande que muestra una unión de diversos países europeos y algunos de fuera de Europa como Canadá y Australia.

Se pueden observar subgrupos dentro de este cluster, es decir, ramificaciones de diferentes niveles, lo cual indica diferentes niveles de similitud entre países. Por ejemplo: Algunos países como Hungría, Islandia, Israel, Luxemburgo y Estonia forman subgrupos cercanos, lo que sugiere similitudes específicas.

Francia, Italia y Bélgica están en un subgrupo propio, lo que sugiere otra similitud

  • Grupo 3 (México, Chile, Colombia):

Los países de este grupo son economías emergentes, generalmente caracterizadas por exportaciones de materias primas y sectores de manufactura en desarrollo.

Sus indicadores reflejan desafíos estructurales, como niveles más altos de desigualdad o estructuras económicas más dependientes de exportaciones específicas

Este es un grupo un poco más pequeño que agrupa a tres países latinoamericanos. La distancia corta entre ellos en el dendrograma sugiere que comparten similitudes más cercanas entre sí en comparación con el resto de los países en el análisis.

Por otro lado, la distancia entre este cluster y los demás es grande, lo que indica una mayor diferencia en las características evaluadas con respecto al resto de los países que se están evaluando.

Texto alternativo
Texto alternativo

Este grafico muestra la proyección de diferentes países en dos factores (Factor 1 y Factor 2), que representan las principales dimensiones de variabilidad en los datos. Cada punto representando un país, mientras que los factores en los ejes indican los componentes más importantes.

Los países que están más alejados del origen (como Corea y Colombia) muestran características diferentes en comparación con otros países más cercanos al centro (como Alemania, Japón, y Países Bajos), lo que podría indicar que estos países tienen patrones distintos en las variables analizadas.

Texto alternativo
Texto alternativo

Este gráfico es un círculo de correlación para el análisis de componentes principales (ACP), donde cada vector representa una variable en el espacio de los dos primeros componentes principales.

Las direcciones y longitudes de los vectores indican la correlación de cada variable con los componentes principales. Las variables que están alineadas en la misma dirección están correlacionadas positivamente,por otrolado las que están en direcciones opuestas tienen correlaciones negativas.

Las variables que están más cercanas al borde del círculo explican mejor la variabilidad en los componentes, mientras que las más cercanas al centro contribuyen menos a la diferenciación de los países.

Texto alternativo
Texto alternativo

Este gráfico muestra una representación de distancias entre países, que se basa en el analisis. Los países que están cerca entre sí (como Alemania, Países Bajos y Japón) tienen perfiles similares en las variables analizadas. En contraste, países como Corea y Colombia están más alejados del grupo principal, esto sugiere que estos paises tienen características particulares.

Texto alternativo
Texto alternativo
Texto alternativo
Texto alternativo

El gráfico de dispersión presenta dos dimensiones, que son los dos primeros componentes principales (d = 2). Estos componentes explican una parte significativa de la variabilidad total de los datos. Los ejes indican la dirección en la que los datos tienen la mayor variabilidad.

La dirección y la longitud de las flechas muestran cómo cada variable contribuye a los componentes principales. Variables con flechas largas influyen más en la formación de esos componentes.

Las flechas que apuntan en la misma dirección indican variables que están correlacionadas positivamente, mientras que flechas en direcciones opuestas representan una correlación negativa.

Algunos países están posicionados en el gráfico en función de sus características representadas por las variables proyectadas. Esto significa que su posición en el gráfico refleja las similitudes y diferencias con otros países según sus características.

En la esquina superior izquierda, hay un gráfico de barras que muestra la varianza explicada por cada componente. la primera componente tiene la mayor varianza explicada, seguido del segundo,y el tercero. Entre esas tres componentes tenemos el 70% de la variabilida en nuestra base de datos explicada.

Texto alternativo
Texto alternativo

Hay tres clusters claramente diferenciados (1, 2, y 3) en el gráfico. Esto sugiere que el análisis de clustering logró identificar grupos separados en los datos, proyectados en el espacio de las dos primeras componentes principales.

  • El cluster 1 en negro tiene una distribución más compacta y está más cerca del centro de coordenadas. Esto sugiere una menor variabilidad interna en comparación con los otros clusters.

  • El cluster 2 en rojo está más disperso que el cluster 1, pero se mantiene coherente dentro de su grupo.

  • El cluster 3 en verde está elongado y tiene una mayor dispersión a lo largo de la dimensión de la primera componente principal.

Las elipses representan el rango de dispersión de cada grupo. Un elipse más alargado, como el de los grupos 2 y 3, indica que los datos en ese grupo tienen mayor variabilidad o dispersión en ciertas direcciones.

La orientación de los elipses da una idea de las direcciones principales de variación dentro de cada cluster. Por ejemplo, el cluster 3 parece estar más disperso en la dirección del eje de la primera componente.

Existe una separación clara entre los tres clusters en el espacio de componentes principales. Esto indica que, desde la perspectiva de estas dos dimensiones principales, los clusters tienen características bastante diferenciadas.

En general, este gráfico muestra que el análisis de clustering combinado con la reducción de dimensionalidad mediante el análisis de componentes principales ha logrado separar bien los datos en diferentes grupos que presentan patrones distintos en las dos primeras componentes principales.

CONCLUSIONES

Este trabajo ha logrado identificar y segmentar a los países en grupos económicos según sus características claves utilizando técnicas avanzadas de análisis multivariado. Las conclusiones obtenidas proporcionan información útil para la toma de decisiones en ámbitos como la política económica, el comercio internacional y la gestión de recursos. Los resultados destacan la importancia de ciertos factores económicos y ofrecen una base para estudios posteriores que profundicen en las dinámicas de las economías globales y ha proporcionado una visión clara y detallada de las economías de diferentes países a través de un conjunto de variables económicas clave.

El análisis permitió clasificar las observaciones en tres grupos distintos, con características diferenciadas en función de sus valores medios respecto a las variables originales.

Los primeros componentes principales explicaron la mayor parte de la variabilidad, validando el uso del ACP para la reducción de la dimensionalidad.

Las variables con valores Test significativos identifican patrones distintivos en cada grupo, lo que podría ser útil para análisis posteriores o toma de decisiones

Con esto pudimos ver que podemos formular políticas económicas diferenciadas, ya que permite comprender las características subyacentes de los países y segmentarlos en grupos con necesidades o características económicas similares, lo cual nos arroja resultados que pueden ser utilizados para diseñar estrategias comerciales, financieras y de inversión, basadas en los perfiles económicos de los países en cada grupo. También proporciona una base sólida para el estudio comparativo de economías emergentes frente a economías desarrolladas, y cómo estas se relacionan en términos de indicadores clave como el PIB, exportaciones y gasto público.

Limitaciones y Recomendaciones para Futuras Investigaciones:

  • El análisis podría beneficiarse de incluir más variables que consideren otros aspectos importantes de la economía global, como la innovación tecnológica, la educación o la infraestructura, para obtener una visión más integral de las economías.

  • Futuras investigaciones podrían incorporar métodos de análisis adicionales, como el análisis de series temporales o el uso de modelos predictivos, para comprender mejor las dinámicas económicas a lo largo del tiempo.

  • A pesar de las limitaciones del conjunto de datos y la posible presencia de variables no observadas, el análisis realizado proporciona una base sólida para entender y clasificar las economías de los países analizados. Conclusión Final:

BIBLIOGRAFÍA