Integrantes:
El aprendizaje no supervisado (En inglés unsupervised learning o unsupervised machine learning) es una técnica de análisis de datos dentro de la inteligencia artificial y una rama del aprendizaje automático. En este enfoque, un modelo se entrena para descubrir patrones o estructuras ocultas en los datos sin contar con etiquetas o información de salida previamente definida. A diferencia del aprendizaje supervisado, donde se proporcionan ejemplos con etiquetas, en el aprendizaje no supervisado el modelo debe interpretar por sí mismo la estructura interna de los datos. Los algoritmos de este tipo de aprendizaje se enfocan en explorar los datos para identificar patrones, relaciones o regularidades, logrando así una comprensión más profunda de ellos. La segmentación de países según sus indicadores económicos es una herramienta de gran valor para identificar similitudes y diferencias estructurales entre distintas economías. Esta clasificación permite realizar un análisis profundo de los patrones económicos comunes y únicos entre naciones, ofreciendo información útil para diseñar políticas económicas, establecer prioridades de desarrollo, y facilitar colaboraciones a nivel internacional. La Organización para la Cooperación y el Desarrollo Económicos (OECD) recopila y publica una amplia gama de datos económicos y sociales de sus países miembros y otros, abarcando variables como el PIB per cápita, inflación, tasas de desempleo, deuda pública, inversión en investigación y desarrollo, entre otras. Estos indicadores no solo proporcionan una instantánea del estado económico de cada país, sino que también ayudan a entender sus posiciones relativas en comparación con otros. En este informe, emplearemos técnicas de análisis no supervisado, específicamente el Análisis de Componentes Principales (ACP) y la clusterización, para agrupar los países con base en sus características económicas. Estas herramientas permiten identificar grupos de países con patrones económicos similares, simplificando la interpretación de grandes volúmenes de datos y facilitando la elaboración de recomendaciones políticas y económicas.
Para realizar una segmentación eficiente de los países primeramente se estandarizaron los datos ya que cuando se estandariza la información, cada variable se transforma para tener una media de cero y una desviación estándar de uno. Esto se debe realizar para poner todas las variables en la misma escala, independientemente de sus unidades originales (por ejemplo, dólares, porcentajes o cantidades). La estandarización es útil en métodos de análisis como el ACP o el clustering, donde las variables con rangos de valores más amplios podrían influir desproporcionadamente en los resultados si no se ajustan, entonces podemos notar la diferencia en que cuando no se estandariza la información cada variable conserva su escala y unidad original. Esto es necesario sólo si se quiere analizar el impacto absoluto de cada variable, especialmente en casos donde las magnitudes son importantes o tienen un significado particular en su valor original. Teniendo en cuenta lo anterior se procede a desarrollar las siguientes técnicas para realizar nuestro análisis:
El Análisis de Componentes Principales es una técnica de reducción de dimensionalidad que tiene como objetivo simplificar el conjunto de datos manteniendo la mayor cantidad posible de su variabilidad. En lugar de analizar cada indicador económico individualmente, ACP permite transformar las variables originales en un conjunto de “componentes principales”, que son combinaciones lineales de las variables originales y que capturan patrones importantes en los datos.
El Análisis de Componentes Principales (ACP) es una técnica utilizada para sintetizar información o reducir la dimensionalidad de los datos, con el fin de minimizar el error cuadrático. Su objetivo es transformar un conjunto de variables, conocidas como variables originales, en un nuevo conjunto llamado componentes principales. Estos nuevos componentes son combinaciones lineales de las variables originales y están diseñados para ser independientes y no correlacionados entre sí. Un aspecto clave, y también uno de los mayores desafíos del ACP, es la interpretación de los componentes principales. Esta interpretación no se define de antemano, sino que se logra al analizar la relación entre los componentes y las variables originales, las cuales vienen dadas por la siguiente combinación lineal:
Z=λ1X1+λ2X2+...λpXp
-Primero, se calcula la matriz de covarianza o correlación entre las variables. -A partir de esta matriz, se determinan los valores y vectores propios, los cuales representan la varianza de los datos en diferentes direcciones. -Los componentes principales son los vectores propios asociados con los valores propios más grandes, ya que estos representan la mayor variabilidad. -A continuación, se seleccionan los componentes que explican el mayor porcentaje de varianza acumulada, facilitando el análisis al reducir las dimensiones originales.
En el Análisis de Componentes Principales (ACP), cuando hablamos de ortogonalidad en factores, nos referimos a que los componentes principales son perpendiculares entre sí en el espacio de los datos, lo cual implica que no comparten información ni están correlacionados. Esta propiedad asegura que cada componente principal aporta una visión única sobre la variabilidad de los datos, sin duplicar lo que ya capturaron otros componentes. Gracias a esta independencia, la ortogonalidad permite que los resultados del análisis sean más claros y específicos, ya que cada componente representa una dimensión diferente de la información contenida en los datos.
Interpretación de los Componentes: Cada componente principal combina varias variables económicas en una “dimensión” que captura un patrón común. Por ejemplo, un componente podría agrupar variables de crecimiento económico, inversión y empleo, mientras otro podría estar más asociado con indicadores de inflación y deuda. Esta técnica nos permite observar relaciones complejas entre las variables sin perder de vista las tendencias más significativas.
Método de Ward: El método de Ward es una técnica jerárquica que agrupa datos minimizando la varianza dentro de cada clúster. Funciona de la siguiente manera: -Cada país empieza siendo su propio cluster individual. -Los clusters se van fusionando progresivamente, seleccionando siempre la combinación que minimice el incremento de varianza en el grupo resultante. -Este proceso continúa hasta que todos los países estén en un único cluster o hasta alcanzar el número de clusters deseado.
El método de Ward es ideal para obtener clusters bien diferenciados, ya que minimiza la heterogeneidad interna, lo cual lo hace útil para identificar agrupaciones naturales de países con economías similares.
Los métodos jerárquicos se subdividen en aglomerativos y disociativos. Los métodos aglomerativos realizan un análisis con tantos grupos como individuos existan. A partir de estas unidades iniciales se van formando los grupos, de forma ascendente, con el fin de englobar estos en un mismo conglomerado. Los métodos disociativos o descendentes son el proceso inverso a los métodos aglomerativos. Estos métodos comienzan con un único conglomerado que agrupa todos los casos, formando así el grupo inicial. A través de divisiones sucesivas, se generan grupos cada vez más pequeños. Al final de este proceso, se obtienen tantas agrupaciones como casos individuales se hayan analizado.
K-means: El método K-means es una técnica no jerárquica que requiere establecer el número de clusters, k, de antemano. Funciona de la siguiente forma: -Inicialmente, se eligen k puntos como “centroides” iniciales, cada país se asigna al centroide más cercano, formando k grupos Luego, los centroides se recalculan en función de las nuevas asignaciones, y los países se vuelven a asignar al centroide más cercano. -Este proceso se repite hasta que los centroides ya no cambian significativamente, es decir, hasta que el agrupamiento se estabiliza. Los objetos se representan con vectores reales de dimensiones (x1, x2,…,xn) y el algoritmo k-means construye k grupos donde se minimiza la suma de distancias de los objetos, dentro de cada grupo S={S1,S2,…,Sk} a su centroide, el problema se formula de la siguiente manera:
MinSE(μi)=MinS∑i=1k∑xjϵsi\|\|xj-μi\|\|2"
Donde S es el conjunto de datos cuyos elementos son los objetos xj representados por vectores, donde cada uno de sus elementos representa una característica o atributo. Así se obtienen los k grupos o clusters con su correspondiente centroide i.
Este método es eficaz para analizar y clasificar países en clusters específicos, especialmente cuando se tiene una idea aproximada de la cantidad de segmentos económicos relevantes. Ambos métodos ofrecen perspectivas únicas sobre la segmentación. El método de Ward permite explorar jerarquías en los grupos de países, mientras que K-means es útil para obtener agrupaciones claras y con límites definidos. En este estudio, compararemos ambas técnicas para obtener los clusters más representativos según los indicadores económicos disponibles.
1.Saldo de cuenta corriente como porcentaje del PIB: Mide el saldo de la cuenta corriente (exportaciones menos importaciones de bienes, servicios, ingresos y transferencias) expresado como porcentaje del PIB. Refleja la capacidad o dependencia de un país en su comercio exterior y su posición económica global.
2.Tipo de cambio, moneda nacional por USD: Es el valor de la moneda nacional en relación al dólar estadounidense. Mide cuántas unidades de la moneda local se necesitan para adquirir un dólar.
3.Importaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Valor total de los bienes y servicios importados por un país, ajustado por la inflación, expresado en dólares estadounidenses.
4.Comercio de bienes y servicios, volumen en USD: Suma de las exportaciones e importaciones de bienes y servicios, reflejando el nivel de actividad comercial de un país con el exterior.
5.Exportaciones de bienes y servicios, volumen en USD (base de cuentas nacionales): Valor total de los bienes y servicios exportados por un país, ajustado por la inflación, expresado en dólares estadounidenses.
7.Gasto de consumo final privado, volumen: Refleja el gasto total de los hogares en bienes y servicios, ajustado por la inflación.
8.Exportaciones netas, contribuciones a los cambios en el PIB real: Diferencia entre exportaciones e importaciones. Representa el impacto del comercio neto en el crecimiento del PIB real.
9.Producto interno bruto, valor nominal, precios de mercado: Valor total de los bienes y servicios producidos en un país a precios corrientes de mercado.
10.Producto interno bruto, volumen, precios de mercado: PIB ajustado por inflación, reflejando el valor real de la producción de bienes y servicios.
11.Producto interno bruto, volumen en dólares estadounidenses, a paridades de poder adquisitivo constantes: PIB ajustado a la paridad de poder adquisitivo (PPA), permitiendo comparaciones entre países al considerar las diferencias en el costo de vida.
12.Formación bruta de capital fijo, total, volumen: Inversión total en activos fijos como edificios, infraestructura y maquinaria, ajustada por inflación.
13.Importaciones de bienes y servicios, volumen (base cuentas nacionales): Volumen de importaciones de bienes y servicios, ajustado para cambios en los precios.
14.Exportaciones de bienes y servicios, volumen (base cuentas nacionales): Volumen de exportaciones de bienes y servicios, ajustado para cambios en los precios.
15.Exportaciones de bienes y servicios, volumen, crecimiento (base cuentas nacionales): Tasa de crecimiento en el volumen de exportaciones de bienes y servicios en comparación con el periodo anterior.
16.Importaciones de bienes y servicios, volumen, crecimiento (base cuentas nacionales): Tasa de crecimiento en el volumen de importaciones de bienes y servicios en comparación con el periodo anterior.
17.Producto interno bruto, volumen, crecimiento: Tasa de crecimiento del PIB real, mostrando el cambio en la producción económica ajustada por inflación.
18.Producto interno bruto, valor nominal, crecimiento: Tasa de crecimiento del PIB a precios corrientes, sin ajuste por inflación.
19.Producto interno bruto, precios de mercado, deflactor, crecimiento: Tasa de crecimiento del deflactor del PIB, indicador de inflación en toda la economía.
20.Formación bruta de capital fijo, total, volumen, crecimiento: Tasa de crecimiento en la inversión en activos fijos, ajustada por inflación.
21.Gasto de consumo final privado, volumen, crecimiento: Tasa de crecimiento del gasto de los hogares en bienes y servicios ajustado por inflación.
22.Gasto de consumo final del gobierno, volumen, crecimiento: Tasa de crecimiento en el gasto gubernamental en bienes y servicios ajustado por inflación.
23.Exportaciones de bienes y servicios, deflactor (base cuentas nacionales): Índice que mide los cambios de precio de los bienes y servicios exportados.
24.Importaciones de bienes y servicios, deflactor (base cuentas nacionales): Índice que mide los cambios de precio de los bienes y servicios importados.
25.Producto interno bruto, precios de mercado, deflactor: Índice de precios del PIB, mide los cambios en el nivel de precios de toda la economía.
26.Tasa de desempleo: Porcentaje de la población activa que está sin empleo y busca trabajo.
27.Empleo total (en base a encuestas de población activa): Número total de personas empleadas en la economía, según encuestas de población.
28.Fuerza laboral: Número total de personas en edad de trabajar que están empleadas o buscando empleo.
29.Tasa de interés a corto plazo: Tasa de interés para préstamos a corto plazo, generalmente determinada por el banco central del país.
-Producto Interno Bruto (PIB) y Crecimiento Económico: Variables relacionadas con el PIB, crecimiento anual y PIB per cápita representan el tamaño y nivel de desarrollo de una economía. El PIB mide la producción económica total de un país y es uno de los indicadores más importantes para evaluar el bienestar general.
Las economías con PIB alto y crecimiento sostenido suelen tener mayores recursos para invertir en infraestructura y servicios, mientras que las economías con PIB más bajo o decreciente enfrentan mayores desafíos de desarrollo.
-Saldo de cuenta corriente como porcentaje del PIB: Muestra si un país es netamente exportador o importador en términos de bienes, servicios y transferencias. Un saldo positivo indica superávit, mientras que uno negativo refleja un déficit.
Importancia en la segmentación: Esta variable ayuda a clasificar países en función de su posición en el comercio internacional. Un superávit en cuenta corriente indica que el país podría estar acumulando reservas, mientras que un déficit podría reflejar dependencia de financiamiento externo.
-Exportaciones e Importaciones de bienes y servicios, volumen y crecimiento: Indican el valor total y el crecimiento de bienes y servicios que un país exporta e importa, ajustados por inflación.
Importancia en la Segmentación: La diferencia en los niveles de exportaciones e importaciones permite agrupar países en función de su apertura económica y especialización en sectores exportadores o dependientes de importaciones. El crecimiento en estos volúmenes ayuda a identificar economías en expansión comercial.
-Exportaciones netas, contribuciones a los cambios en el PIB real: Mide la contribución del comercio neto (exportaciones menos importaciones) al crecimiento del PIB real.
Importancia en la Segmentación: Ayuda a identificar la influencia del comercio exterior en el crecimiento económico, diferenciando economías orientadas al comercio de aquellas con un mercado interno predominante.
-Tipo de cambio, moneda nacional por USD: Refleja el valor de la moneda nacional frente al dólar estadounidense, siendo un indicador de competitividad internacional.
Importancia en la Segmentación: Un tipo de cambio favorable puede indicar competitividad exportadora, mientras que un tipo de cambio alto puede sugerir presiones inflacionarias o dependencia de la moneda extranjera.
-Deflactores de exportaciones, importaciones y PIB: Miden el cambio en los precios de exportaciones, importaciones y de toda la economía.
Importancia en la Segmentación: Los deflactores indican el comportamiento de precios de los productos específicos y del conjunto económico, permitiendo clasificar países según sus dinámicas inflacionarias y su exposición a cambios de precios internacionales.
-Gasto de consumo final del gobierno y privado (volumen y crecimiento): Reflejan el gasto en bienes y servicios por parte de los gobiernos y los hogares.
Importancia en la Segmentación: Estas variables permiten identificar economías con alto gasto público frente a aquellas donde el consumo privado es predominante, lo cual puede reflejar el rol del estado y el nivel de bienestar en la economía.
-Formación bruta de capital fijo, total y crecimiento: Representa la inversión en infraestructura, edificios y maquinaria, y su crecimiento.
Importancia en la Segmentación: Permite agrupar economías en función de su tasa de inversión en activos productivos, un indicador clave del potencial de crecimiento y desarrollo económico.
-Producto interno bruto, valor nominal y volumen, crecimiento: Mide el tamaño de la economía en términos actuales y reales, y su crecimiento.
Importancia en la Segmentación: Estas variables ayudan a identificar el tamaño y dinamismo de las economías, clasificando a los países según su nivel de desarrollo económico y su crecimiento.
-PIB en dólares constantes a paridades de poder adquisitivo (PPA): Ajusta el PIB en dólares según la paridad de poder adquisitivo, permitiendo una comparación estandarizada entre países.
Importancia en la Segmentación: Facilita la comparación entre economías ajustando las diferencias de precios, lo que permite clasificar países en función de su poder adquisitivo relativo.
-Tasa de desempleo: Porcentaje de la población activa sin empleo.
Importancia en la segmentación: Indica el nivel de empleo y la capacidad de absorción laboral de la economía.Países con baja tasa de desempleo suelen tener economías estables o en crecimiento, mientras que altas tasas pueden indicar problemas estructurales.
-Empleo total y fuerza laboral: Muestra el número de personas empleadas y la cantidad de personas activas en la economía. Importancia en la segmentación: Facilita la clasificación de países según su tamaño laboral y la capacidad de empleo, diferenciando economías con alta participación laboral de aquellas con limitaciones estructurales. Variables como la tasa de empleo y desempleo brindan información sobre el mercado laboral y la actividad económica general. Las tasas de desempleo elevadas pueden indicar dificultades en la economía, mientras que las bajas tasas de desempleo suelen asociarse con economías en crecimiento. Estas variables también permiten identificar economías con alta capacidad de generación de empleo frente a aquellas con desafíos estructurales en su mercado laboral.
-Tasa de interés a corto plazo: Refleja el costo del dinero a corto plazo, usualmente controlado por el banco central.
Importancia en la segmentación: Una tasa de interés baja puede indicar políticas de estímulo económico, mientras que una alta sugiere controles contra la inflación. Esto permite agrupar economías según su contexto monetario.
-Deuda Pública y Déficit Fiscal: Variables que reflejan la deuda pública y el déficit fiscal son cruciales para comprender la sostenibilidad de una economía. Los países con altos niveles de deuda pueden tener menos flexibilidad para invertir en crecimiento a futuro y más vulnerabilidad ante crisis. En cambio, una deuda controlada sugiere una economía más saludable y con mayor capacidad de respuesta ante cambios económicos.
-Inflación y Estabilidad de Precios: Indicadores de inflación muestran la variación en los precios de bienes y servicios. Una inflación alta generalmente sugiere una economía inestable, lo cual puede desincentivar la inversión y el ahorro. Los países con baja inflación tienden a atraer más inversiones y tienen una mayor estabilidad en el poder adquisitivo, siendo más atractivos para inversionistas y empresas.
-La segmentación de los países en estos clusters permite entender mejor la diversidad de estructuras económicas, niveles de desarrollo y desafíos que enfrenta cada grupo. Esta clasificación es útil para diseñar políticas específicas para cada tipo de economía, facilitar la cooperación internacional, y realizar comparaciones precisas. Los clusters también proporcionan una base para identificar patrones de convergencia o divergencia entre las economías a lo largo del tiempo, ayudando a anticipar tendencias en el desarrollo global.
-Al segmentar países con base en estos datos, el análisis no supervisado permite descubrir patrones que revelan similitudes económicas y estructurales, ofreciendo una base sólida para la toma de decisiones y la formulación de políticas.
Inicialmente, se trabajó con el algoritmo K-means para clasificar los países, el cual indicó que el valor óptimo de k era 2. Sin embargo, al aplicar el método jerárquico y analizar los resultados obtenidos del gráfico de codo y de silueta, también se sugirió que k=2 era el valor más adecuado. No obstante, al analizar más a fondo los datos, se observó que la agrupación obtenida no era coherente.El modelo agrupó todos los países en un solo clúster de 41 países y destacó a Argentina como un valor atípico. Aunque no se puede identificar con certeza qué factores causaron esta agrupación inesperada, una posible explicación podría ser la alta correlación entre varias de las variables, lo que podría haber llevado a una clasificación homogénea de los países en un solo grupo, es decir, comparten características o comportamientos muy parecidos, sin reflejar las diferencias importantes entre ellos. Dado esto, decidimos optar por un enfoque que permitiera una segmentación más detallada y representativa de las diferencias entre los países. El método jerárquico, que permite realizar cortes en el dendrograma para obtener una segmentación más flexible, fue elegido para este análisis. A través de este enfoque, se determinó que el valor óptimo de k era 5, lo que permitió una partición más acorde con las características y la diversidad de los países analizados.
Para el análisis de las variables, se empleó el método jerárquico, el cual organiza los datos en una estructura de árbol representada mediante un dendrograma. Esta estructura facilita la identificación de patrones y relaciones entre las observaciones, permitiendo entender mejor las características subyacentes de los grupos. A partir de este análisis jerárquico, se obtuvo una estructura preliminar de agrupamiento en cinco clústeres (k=5), que resultó ser la mejor partición para este conjunto de datos. La distribución de los países en estos cinco grupos refleja las características específicas de cada clúster, las cuales se analizaron en función de 29 variables que representan factores económicos clave. El primer grupo quedó conformado por 28 países, mientras que el segundo grupo incluyó 11 países. Además, se identificaron tres países como atípicos, los cuales, debido a sus características únicas, fueron clasificados en clústeres individuales. Estos países atípicos fueron Argentina, Corea y Estados Unidos, cada uno de los cuales forma un grupo separado debido a sus comportamientos económicos distintos en comparación con los otros países en el análisis. A continuación se enseñan los resultados con el método k-means para una mejor apreciación de la información mencionada anteriormente.