Segmentación de países mediante indicadores económicos
Análisis no supervisado - OCDE
Jhonny Alexander Orrego Salgado 2418492
Danna Cecilia Caldas Góngora 222635
Jacobo Zúñiga Fernández 2438161
Universidad del Valle
Gestión de datos - Joaqui Barandica
2026
Introducción
La Organización para la Cooperación y el Desarrollo Económicos (OCDE) agrupa a economías que, aunque comparten principios de mercado abierto y desarrollo sostenible, presentan estructuras económicas profundamente heterogéneas. Esta diversidad plantea una pregunta fundamental: ¿es posible identificar grupos de países con perfiles económicos similares que vayan más allá de las clasificaciones geográficas o de ingreso tradicionales?
Responder esta pregunta tiene implicaciones prácticas importantes. Como señala la propia OCDE en sus reportes de perspectivas económicas, “las políticas diseñadas para un tipo de economía pueden ser ineficaces o incluso contraproducentes para otra” (OCDE, 2023, p. 12). Un país con alto crecimiento, pero déficit en cuenta corriente enfrenta desafíos completamente diferentes a uno con economía estable, pero bajo dinamismo. Identificar estos perfiles permite diseñar estrategias más precisas y comparar países con estructuras similares, en lugar de usar promedios globales que ocultan diferencias estructurales relevantes.
La heterogeneidad entre los países miembros de la OCDE no se limita al tamaño de sus economías. Variables como la tasa de desempleo, el dinamismo de la inversión, la apertura comercial o las tasas de interés revelan patrones de comportamiento económico que no siempre siguen una lógica geográfica o de nivel de ingreso. Países geográficamente cercanos pueden tener perfiles económicos radicalmente distintos, mientras que economías en continentes diferentes pueden compartir características estructurales similares.
Sin embargo, el análisis directo de estas variables enfrenta desafíos metodológicos. Las variables de volumen absoluto —como el PIB real, el consumo privado o la inversión fija— se miden en escalas muy superiores a las tasas de crecimiento o los porcentajes de desempleo, lo que requiere estandarizar los datos para que ninguna variable domine el análisis por su magnitud. Adicionalmente, la alta correlación entre ciertos grupos de variables —por ejemplo, el bloque de consumo de gobierno, consumo privado, PIB real e inversión fija presenta correlaciones superiores a 0.93— introduce redundancia informativa que debe ser reducida.
En este contexto, el aprendizaje no supervisado ofrece herramientas poderosas para descubrir patrones sin imponer clasificaciones previas. A través del Análisis de Componentes Principales (ACP) y la clusterización jerárquica con el método de Ward (Ward, 1963), este análisis busca identificar agrupaciones naturales entre 42 países de la OCDE a partir de 15 indicadores económicos seleccionados. El objetivo no es clasificar países por riqueza, sino descubrir las dimensiones latentes que definen distintos tipos de economías y los grupos que emergen de esa estructura multidimensional.
Metodología
Base de datos y selección de variables
Los datos utilizados en este análisis provienen de la base de datos oficial de la Organización para la Cooperación y el Desarrollo Económicos (OCDE), reconocida internacionalmente como una de las fuentes más confiables de estadísticas económicas comparables entre países (OCDE, 2023). La muestra está conformada por 42 países miembros y asociados de la organización, sobre los cuales se dispone de información completa para los indicadores seleccionados.
De las variables disponibles en la base se seleccionaron 15 indicadores que cubren tres dimensiones de la actividad económica. La Tabla 1 presenta la correspondencia entre los códigos utilizados en la base de datos original y el nombre completo de cada variable.
| Código | Nombre de la variable | Dimensión |
|---|---|---|
| x1 | Balanza de cuenta corriente (% PIB) | Balance y mercado financiero |
| x5 | Exportaciones de bienes y servicios (volumen) | Volumen absoluto |
| x6 | Gasto de consumo final del gobierno (volumen) | Volumen absoluto |
| x7 | Gasto de consumo final privado (volumen) | Volumen absoluto |
| x10 | PIB real a precios de mercado (volumen) | Volumen absoluto |
| x11 | PIB en paridad de poder adquisitivo (PPA) | Volumen absoluto |
| x12 | Formación bruta de capital fijo (volumen) | Volumen absoluto |
| x15 | Crecimiento de exportaciones (volumen) | Dinamismo |
| x16 | Crecimiento de importaciones (volumen) | Dinamismo |
| x17 | Crecimiento del PIB (volumen) | Dinamismo |
| x20 | Crecimiento de la inversión fija | Dinamismo |
| x21 | Crecimiento del consumo privado | Dinamismo |
| x22 | Crecimiento del consumo del gobierno | Dinamismo |
| x26 | Tasa de desempleo | Balance y mercado financiero |
| x29 | Tasa de interés de corto plazo | Balance y mercado financiero |
La primera dimensión corresponde a variables de volumen absoluto que capturan el tamaño de la economía: exportaciones (x5), gasto de consumo final del gobierno (x6), gasto de consumo final privado (x7), PIB real (x10), PIB en paridad de poder adquisitivo (x11) e inversión fija (x12). La segunda dimensión incluye tasas de crecimiento que reflejan el dinamismo económico: crecimiento de exportaciones (x15), crecimiento de importaciones (x16), crecimiento del PIB (x17), crecimiento de la inversión fija (x20), crecimiento del consumo privado (x21) y crecimiento del consumo del gobierno (x22). La tercera dimensión agrupa variables de balance y mercado financiero: balanza de cuenta corriente como porcentaje del PIB (x1), tasa de desempleo (x26) y tasa de interés de corto plazo (x29).
Preparación y estandarización de los datos
Dado que las variables seleccionadas presentan escalas de medición muy diferentes (algunas expresadas en volúmenes monetarios de magnitud billonaria y otras en porcentajes), fue necesario estandarizar los datos antes de aplicar cualquier técnica multivariada. La estandarización se realizó mediante la transformación z-score, que transforma cada variable para que tenga media cero y desviación estándar uno. Este proceso garantiza que todas las variables contribuyan equitativamente al análisis sin que las de mayor magnitud dominen los resultados.
Análisis de Componentes Principales (ACP):
El ACP es una técnica de reducción de dimensionalidad que transforma un conjunto de variables originales potencialmente correlacionadas en un conjunto menor de componentes principales ortogonales, ordenados según la proporción de varianza que explican (Jolliffe, 2002). En este análisis se aplicó el ACP sobre las 15 variables estandarizadas con el objetivo de identificar las dimensiones latentes que mejor resumen la variabilidad económica entre los países. Para determinar el número de componentes a retener se utilizó el gráfico de sedimentación, seleccionando aquellos componentes que explican una proporción significativa de la varianza antes del punto donde la curva se aplana. Con base en este criterio se retuvieron 4 componentes principales que en conjunto explican aproximadamente el 72% de la varianza total.
Clustering jerárquico: método de Ward
El clustering jerárquico con el método de Ward es un algoritmo de agrupamiento que construye una jerarquía de clusters minimizando en cada paso el incremento en la varianza interna de los grupos resultantes (Ward, 1963). El proceso inicia considerando cada país como un cluster individual y va fusionando progresivamente los grupos más similares hasta que todos los países quedan en un único cluster. El resultado se visualiza mediante un dendrograma que permite identificar el número óptimo de clusters según los saltos más pronunciados en las alturas de fusión.
En este análisis el clustering se aplicó sobre las coordenadas de los 4 componentes principales retenidos, lo que permite agrupar los países en función de su perfil económico multidimensional en lugar de variables individuales. El número óptimo de clusters se determinó mediante la inspección visual del dendrograma y el coeficiente de silueta, seleccionando 3 clusters como la solución que mejor equilibra la cohesión interna de cada grupo y la separación entre ellos.
Descripción de Variables
Para el desarrollo del análisis se seleccionaron 15 variables económicas provenientes de la base de datos de la OCDE, las cuales cubren diferentes dimensiones de la actividad económica de los 42 países incluidos en la muestra. A continuación, se describe brevemente cada una de ellas.
• Balanza de cuenta corriente como porcentaje del PIB (x1): Mide la diferencia entre los ingresos y pagos de un país en sus transacciones con el resto del mundo. Un valor positivo indica superávit y un valor negativo déficit. Es fundamental para evaluar la sostenibilidad macroeconómica y la posición financiera externa de un país.
• Exportaciones de bienes y servicios en volumen (x5): Mide el valor total de los bienes y servicios vendidos al exterior en volumen, eliminando el efecto de los precios. Refleja la capacidad productiva y competitiva de una economía en los mercados internacionales.
• Gasto de consumo final del gobierno en volumen (x6): Mide el gasto total del gobierno en bienes y servicios para uso final. Refleja el tamaño del sector público y su participación en la demanda agregada de la economía. • Gasto de consumo final privado en volumen (x7): Mide el gasto total de los hogares en bienes y servicios. Es el componente más grande del PIB en la mayoría de las economías desarrolladas y refleja el nivel de bienestar y poder adquisitivo de la población.
• PIB real en volumen a precios de mercado (x10): Mide el valor total de los bienes y servicios producidos en un país a precios constantes. Es el indicador más completo del tamaño absoluto de una economía y permite comparaciones directas entre países eliminando el efecto de la inflación.
• PIB en dólares a paridades de poder adquisitivo constantes (x11): Complementa al PIB real ajustando las diferencias en costos de vida entre países, permitiendo una comparación más precisa del nivel de vida y bienestar relativo de cada economía.
• Formación bruta de capital fijo en volumen (x12): Mide la inversión en capital físico (maquinaria, infraestructura y construcción). Es un indicador fundamental de la capacidad productiva futura y del dinamismo inversor de cada país.
• Crecimiento de exportaciones en volumen (x15): Captura el dinamismo del sector externo, indicando si un país está expandiendo o contrayendo su participación en el comercio internacional.
• Crecimiento de importaciones en volumen (x16): Refleja la demanda interna de bienes y servicios del exterior. Es un indicador sensible del ciclo económico: cuando una economía crece, sus importaciones tienden a aumentar.
• Crecimiento del PIB en volumen (x17): Es el indicador más directo del dinamismo económico de un país, permitiendo distinguir economías en expansión acelerada de aquellas con crecimiento moderado o en contracción.
• Crecimiento de la formación bruta de capital fijo (x20): Refleja el dinamismo de la inversión, siendo uno de los componentes más volátiles del ciclo económico y un indicador adelantado de la actividad futura.
• Crecimiento del consumo privado en volumen (x21): Mide la expansión del gasto de los hogares, reflejando la confianza del consumidor y el estado general del ciclo económico.
• Crecimiento del gasto de consumo del gobierno en volumen (x22): Captura la dinámica del gasto público, permitiendo identificar si los gobiernos están adoptando políticas fiscales expansivas o contractivas.
• Tasa de desempleo (x26): Mide la proporción de la población activa que busca empleo, pero no lo encuentra. Refleja la capacidad del mercado laboral para absorber la fuerza de trabajo disponible y es un indicador clave de las condiciones estructurales de cada economía.
• Tasa de interés de corto plazo (x29): Refleja la orientación de la política monetaria de cada país. Las tasas bajas o negativas indican entornos de política monetaria expansiva, mientras que tasas altas reflejan esfuerzos por contener presiones inflacionarias.
Estadísticas Descriptivas
| Variable | Media | Mediana | Desv. Estandar | CV (%) | Minimo | Maximo |
|---|---|---|---|---|---|---|
| CuentaCorriente | 1.010000e+00 | 3.600000e-01 | 5.080000e+00 | 501.86 | -7.280000e+00 | 1.491000e+01 |
| Exportaciones | 3.704357e+11 | 2.173976e+11 | 4.488404e+11 | 121.17 | 8.082994e+09 | 2.257271e+12 |
| ConsumoGobierno | 1.615331e+13 | 3.209043e+11 | 5.883308e+13 | 364.22 | 4.701223e+09 | 3.376846e+14 |
| ConsumoPrivado | 5.073561e+13 | 1.046384e+12 | 1.730062e+14 | 341.00 | 1.310195e+10 | 8.824598e+14 |
| PIB_Real | 9.137015e+13 | 1.930567e+12 | 3.310409e+14 | 362.31 | 2.601447e+10 | 1.915777e+15 |
| PIB_PPA | 1.545227e+12 | 5.341115e+11 | 3.230601e+12 | 209.07 | 1.884749e+10 | 2.052937e+13 |
| InvFija | 2.366899e+13 | 3.753493e+11 | 9.288766e+13 | 392.44 | 8.332420e+09 | 5.731436e+14 |
| Crec_Export | 1.067000e+01 | 1.041000e+01 | 6.890000e+00 | 64.54 | -3.590000e+00 | 2.782000e+01 |
| Crec_Import | 1.282000e+01 | 1.312000e+01 | 8.240000e+00 | 64.25 | -8.280000e+00 | 3.547000e+01 |
| Crec_PIB | 6.410000e+00 | 5.290000e+00 | 2.870000e+00 | 44.74 | 1.640000e+00 | 1.343000e+01 |
| Crec_InvFija | 7.340000e+00 | 6.600000e+00 | 1.081000e+01 | 147.23 | -3.907000e+01 | 3.532000e+01 |
| Crec_ConsPriv | 6.610000e+00 | 5.730000e+00 | 3.930000e+00 | 59.44 | 4.000000e-01 | 2.051000e+01 |
| Crec_ConsGob | 4.460000e+00 | 4.030000e+00 | 2.780000e+00 | 62.34 | 4.100000e-01 | 1.263000e+01 |
| Desempleo | 7.370000e+00 | 6.080000e+00 | 5.270000e+00 | 71.46 | 2.820000e+00 | 3.427000e+01 |
| TasaInteres | 1.000000e+00 | 2.000000e-02 | 3.170000e+00 | 318.52 | -7.400000e-01 | 1.871000e+01 |
Esta tabla resume el comportamiento de las 15 variables para los 42 países de la muestra. Se ve rápidamente que hay una heterogeneidad muy marcada, sobre todo en las variables de volumen absoluto: el consumo del gobierno, el consumo privado, el PIB real y la inversión fija tienen coeficientes de variación que van del 341% al 501%. Esto refleja diferencias enormes en el tamaño de las economías analizadas.
En cambio, las variables de crecimiento muestran coeficientes de variación mucho más bajos, entre el 44% y el 147%. Esto sugiere que, aunque los países pueden ser muy distintos en términos de escala, sus ritmos de expansión tienden a ser más parecidos entre sí.
También se ven algunos valores extremos que llaman la atención. El crecimiento de la inversión fija tiene un mínimo de -39.07%, lo que significa que al menos un país tuvo una caída fuerte en su formación de capital durante el período analizado. La tasa de desempleo va desde 2.82% hasta 34.27%, una brecha de más de 30 puntos que evidencia mercados laborales con realidades muy distintas dentro de un mismo grupo como la OCDE. Y la tasa de interés de corto plazo varía entre -0.74% y 18.71%, reflejando situaciones opuestas de política monetaria: países con tasas negativas (típicas de entornos deflacionarios en Europa) y otros con tasas muy altas para controlar presiones inflacionarias.
Matriz de correlación
La matriz de correlación revela varios grupos de variables altamente relacionadas entre sí, lo que confirma que el ACP es una herramienta adecuada para reducir la redundancia informativa. Se identificaron tres patrones principales.
Primer patrón: bloque de volumen absoluto. Las variables consumo del gobierno, consumo privado, PIB real e inversión fija tienen correlaciones entre 0.93 y 1.00. Esta colinealidad casi perfecta tiene sentido desde la teoría económica: son componentes directos del PIB por la identidad macroeconómica, así que es normal que se muevan juntas.
Segundo patrón: bloque de tasas de crecimiento. El crecimiento del PIB, del consumo privado, de las importaciones y de la inversión fija muestran correlaciones moderadas a altas, entre 0.43 y 0.74. Esto refleja que cuando una economía entra en fase de expansión, la mayoría de sus componentes tienden a crecer al mismo tiempo. También llama la atención la correlación de 0.82 entre exportaciones y PIB per cápita (PPA), lo que sugiere que los países con mayor ingreso relativo tienden a ser economías más abiertas y orientadas al comercio exterior.
Tercer patrón: relación inversa con la cuenta corriente. La balanza de cuenta corriente tiene correlaciones negativas con varias variables de crecimiento: -0.57 con el crecimiento de importaciones y -0.49 con el crecimiento de la inversión fija. Este resultado es consistente con lo que dice la teoría macroeconómica: los países que crecen más rápido tienden a importar más bienes de capital y consumo, lo que termina deteriorando su balanza comercial (FMI, 2023).
Por último, el desempleo y la tasa de interés muestran correlaciones bajas con la mayoría de las variables. Esto indica que responden más a dinámicas propias de cada país que a tendencias generales del ciclo económico.
Esta estructura de correlaciones, en particular los bloques de variables con alta redundancia, justifica la aplicación del ACP para reducir la dimensionalidad antes de realizar el agrupamiento de países.
Perfil Económico por País
El heatmap de valores estandarizados permite ver de un vistazo el perfil económico completo de los 42 países en las 15 variables. Los colores rojos indican valores por encima del promedio y los azules por debajo, lo que facilita identificar patrones y casos atípicos de forma inmediata. En esta visualización, las filas son los países y las columnas son las variables.
Se destacan dos países con perfiles marcadamente atípicos. Korea presenta barras rojas muy intensas en las variables de volumen absoluto (consumo del gobierno, consumo privado, PIB real e inversión fija), con valores estandarizados que superan 4. Esto confirma que su economía opera en una escala completamente diferente al resto de la muestra. Colombia, por su parte, muestra barras rojas en las variables de crecimiento (PIB, importaciones e inversión fija), reflejando un dinamismo económico que contrasta con su tamaño relativo. Este perfil diferenciado de ambos países anticipa su clasificación en un cluster independiente en el análisis posterior.
Entre los casos particulares adicionales destacan Türkiye, con una barra roja muy intensa en la tasa de interés como reflejo de su política monetaria agresiva para contener presiones inflacionarias, y Sudáfrica, con el valor más alto de desempleo de toda la muestra (34.27%). Japón también llama la atención: aunque pertenece al grupo de economías desarrolladas, visualmente se ubica entre Korea y el resto, lo que tiene sentido porque es una economía muy grande, pero con un dinamismo propio.
La mayoría de las economías europeas (Alemania, Francia, España, Italia, entre otras) presentan colores cercanos al blanco en casi todas las variables, indicando perfiles cercanos al promedio. Esta homogeneidad relativa anticipa su agrupación en el cluster más grande que se identificará más adelante.
BaseACP_scaled <- scale(BaseACP)
heatmap_data <- as.data.frame(BaseACP_scaled)
heatmap_data$Pais <- Base15$Pais
heatmap_long <- heatmap_data %>%
pivot_longer(-Pais,
names_to = "Variable",
values_to = "Valor")
p <- ggplot(
heatmap_long,
aes(x = Variable, y = Pais, fill = Valor)
) +
geom_tile(color = "white") +
scale_fill_gradient2(
low = "#00AFBB",
mid = "white",
high = "#FC4E07",
midpoint = 0
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
ggplotly(p)Resultados
ACP
## Importance of components:
## PC1 PC2 PC3 PC4 PC5 PC6 PC7
## Standard deviation 2.0045 1.8557 1.3087 1.2881 1.11369 0.97301 0.8334
## Proportion of Variance 0.2679 0.2296 0.1142 0.1106 0.08269 0.06312 0.0463
## Cumulative Proportion 0.2679 0.4975 0.6116 0.7223 0.80494 0.86806 0.9144
## PC8 PC9 PC10 PC11 PC12 PC13 PC14
## Standard deviation 0.71398 0.57953 0.44722 0.34939 0.26569 0.20987 0.04776
## Proportion of Variance 0.03398 0.02239 0.01333 0.00814 0.00471 0.00294 0.00015
## Cumulative Proportion 0.94834 0.97073 0.98407 0.99221 0.99691 0.99985 1.00000
## PC15
## Standard deviation 0.002633
## Proportion of Variance 0.000000
## Cumulative Proportion 1.000000
Análisis de componentes principales
varianza <- summary(res.pca)$importance[2, ] * 100
tabla_varianza <- data.frame(
Componente = factor(paste0("Dim", 1:length(varianza)),
levels = paste0("Dim", 1:length(varianza))),
Varianza = as.numeric(varianza)
)
p_eig <- ggplot(tabla_varianza, aes(x = Componente, y = Varianza, group = 1)) +
geom_col(fill = "#00AFBB") +
geom_line(color = "#FC4E07") +
geom_point(color = "#FC4E07", size = 2) +
theme_minimal() +
labs(title = "Gráfico de sedimentación",
x = "Componentes principales",
y = "Varianza explicada (%)")
ggplotly(p_eig)Con el objetivo de reducir la dimensionalidad del conjunto de 15 variables económicas y facilitar la identificación de patrones estructurales entre los 42 países de la muestra, se aplicó el Análisis de Componentes Principales sobre las variables previamente estandarizadas. Esta técnica transforma las variables originales, varias de ellas altamente correlacionadas como se evidenció en la matriz de correlación , en un conjunto menor de componentes ortogonales que concentran la mayor parte de la variabilidad del sistema.
El gráfico de sedimentación muestra el porcentaje de varianza explicada por cada uno de los 15 componentes generados. La primera dimensión explica aproximadamente el 26.8% de la varianza total, seguida por la segunda con un 23.0%, lo que en conjunto representa cerca del 49.8% de la variabilidad concentrada en solo dos ejes. La tercera y cuarta dimensión aportan adicionalmente 11.5% y 11% respectivamente, alcanzando una varianza acumulada de aproximadamente 72% con los primeros cuatro componentes.
A partir de la quinta dimensión la curva se aplana de forma considerable, con aportes individuales inferiores al 9%, lo que indica que estos componentes capturan principalmente variabilidad residual o ruido estadístico. Con base en este criterio se retuvieron los primeros 4 componentes principales como base para el análisis posterior, una decisión que equilibra la simplicidad del modelo con la preservación de información relevante.
Interpretación de los componentes
res.var.coord <- as.data.frame(res.pca$rotation[, 1:4])
res.var.coord$Variable <- rownames(res.var.coord)
res.ind.coord <- as.data.frame(res.pca$x[, 1:4])
res.ind.coord$Pais <- Base15$Paiscontrib_variables <- as.data.frame((res.pca$rotation[, 1:4]^2) * 100)
contrib_variables$Variable <- rownames(contrib_variables)
contrib_variables## PC1 PC2 PC3 PC4 Variable
## CuentaCorriente 1.509302e-02 10.87110920 3.58351059 6.5409603 CuentaCorriente
## Exportaciones 5.151472e-01 8.77287398 25.78219432 5.7771616 Exportaciones
## ConsumoGobierno 2.449362e+01 0.11480490 0.02886322 0.3496829 ConsumoGobierno
## ConsumoPrivado 2.399954e+01 0.05855338 0.03450178 0.1386959 ConsumoPrivado
## PIB_Real 2.465759e+01 0.03568866 0.03265953 0.3073564 PIB_Real
## PIB_PPA 2.146518e-01 2.55689924 41.54335190 7.4943146 PIB_PPA
## InvFija 2.369963e+01 0.21257959 0.02826424 0.4397027 InvFija
## Crec_Export 2.218084e-02 4.30155410 2.98003029 22.4280750 Crec_Export
## Crec_Import 5.446125e-01 16.52117330 0.29876378 4.7576831 Crec_Import
## Crec_PIB 1.810062e-05 14.27437976 0.12985229 0.2375021 Crec_PIB
## Crec_InvFija 5.327794e-03 12.63673697 0.45787105 7.5617868 Crec_InvFija
## Crec_ConsPriv 1.786304e-01 20.47076201 1.31614094 0.4293529 Crec_ConsPriv
## Crec_ConsGob 1.491689e+00 2.00458695 11.51611355 17.9404712 Crec_ConsGob
## Desempleo 1.594207e-01 2.66475047 1.69351185 13.2904431 Desempleo
## TasaInteres 2.840679e-03 4.50354750 10.57437068 12.3068115 TasaInteres
p_var <- ggplot(res.var.coord, aes(x = PC1, y = PC2, label = Variable)) +
geom_hline(yintercept = 0, linetype = "dashed", color = "gray70") +
geom_vline(xintercept = 0, linetype = "dashed", color = "gray70") +
geom_segment(aes(x = 0, y = 0, xend = PC1, yend = PC2),
arrow = arrow(length = unit(0.2, "cm")),
color = "#00AFBB") +
geom_text(size = 3, vjust = -0.5) +
coord_equal() +
theme_minimal() +
labs(title = "Círculo de correlación de variables",
x = "Dimensión 1",
y = "Dimensión 2")
p_varEl círculo de correlación de variables permite interpretar el significado económico de cada componente a partir de la dirección y magnitud de las flechas que representan a cada variable original.
Dimensión 1 (26.8% de la varianza). Está definida principalmente por las variables de volumen absoluto: consumo del gobierno, PIB real, consumo privado e inversión fija. Sus flechas se superponen casi por completo, reflejando la colinealidad casi perfecta que ya habíamos detectado en la matriz de correlación (Tabla 3). Este componente se interpreta como un eje de escala o tamaño macroeconómico, que diferencia a los países según la magnitud absoluta de su economía, independientemente de su dinamismo coyuntural. Las contribuciones más altas a este componente son: ConsumoGobierno (24.5%), PIB_Real (24.7%), ConsumoPrivado (24.0%) e InvFija (23.7%).
Dimensión 2 (23.0% de la varianza). En su polo negativo está dominada por el bloque de tasas de crecimiento (crecimiento del PIB, consumo privado, importaciones e inversión fija), mientras que en su polo positivo se ubica la balanza de cuenta corriente. La ortogonalidad casi perfecta entre estos dos bloques de variables (ángulo de 90°) demuestra que el tamaño absoluto de una economía es independiente de su velocidad de expansión coyuntural. Este componente se interpreta como un eje de dinamismo económico y balance externo: los países con valores negativos en esta dimensión presentan un crecimiento más acelerado acompañado de un mayor deterioro en su cuenta corriente; los países con valores positivos muestran un crecimiento más moderado con posiciones externas más equilibradas. Las contribuciones más altas son: Crec_ConsPriv (20.5%), Crec_Import (16.5%), Crec_PIB (14.3%) y Crec_InvFija (12.6%).
Dimensión 3 (11.5% de la varianza). Está caracterizada principalmente por el PIB en paridad de poder adquisitivo y las exportaciones, representando un eje de nivel de ingreso relativo y apertura comercial. Sus contribuciones más altas son: PIB_PPA (41.5%) y Exportaciones (25.8%).
Dimensión 4 (11.0% de la varianza). Está definida por el crecimiento de las exportaciones, el crecimiento del consumo del gobierno y la tasa de desempleo, configurando un eje relacionado con el dinamismo externo y las condiciones del mercado laboral. Sus contribuciones más altas son: Crec_Export (22.4%), Crec_ConsGob (17.9%) y Desempleo (13.3%).
Finalmente, variables como la tasa de desempleo (x26) y la tasa de interés de corto plazo (x29) exhiben vectores acortados y posiciones periféricas en el círculo de correlación, lo que valida su baja calidad de representación dentro del espacio bidimensional principal.
Biplot: Relación entre países y variables
coord_paises <- res.pca$x[, 1:4]
distancias <- dist(coord_paises)
modelo_ward <- hclust(distancias, method = "ward.D2")
clusters <- cutree(modelo_ward, k = 3)
clusters_factor <- as.factor(clusters)
coords_plot <- data.frame(
Pais = Base15$Pais,
Dim1 = res.pca$x[, 1],
Dim2 = res.pca$x[, 2],
Cluster = clusters_factor
)
vars_plot <- data.frame(
Variable = rownames(res.pca$rotation),
Dim1 = res.pca$rotation[, 1],
Dim2 = res.pca$rotation[, 2]
)p_biplot <- ggplot() +
geom_point(
data = coords_plot,
aes(
x = Dim1, y = Dim2, color = Cluster,
text = paste(
"Pais:", Pais,
"<br>Cluster:", Cluster,
"<br>Dim1:", round(Dim1, 2),
"<br>Dim2:", round(Dim2, 2)
)
),
size = 3
) +
geom_segment(
data = vars_plot,
aes(x = 0, y = 0, xend = Dim1 * 3, yend = Dim2 * 3),
arrow = arrow(length = unit(0.15, "cm"), type = "closed"),
color = "darkgray",
linewidth = 0.3
) +
geom_text(
data = vars_plot,
aes(x = Dim1 * 3.3, y = Dim2 * 3.3, label = Variable),
size = 2.5,
color = "black",
fontface = "italic"
) +
scale_color_manual(values = c("#00AFBB", "#E7B800", "#FC4E07")) +
labs(
title = "Figura 7. Biplot - ACP",
x = "Componente 1",
y = "Componente 2"
) +
theme_minimal()
ggplotly(p_biplot, tooltip = "text")El biplot integra en una sola visualización la posición de los países y la dirección de las variables originales, lo que permite identificar qué características económicas explican la ubicación de cada país en el plano factorial.
Se observa que Alemania se posiciona en la dirección de las flechas correspondientes a la cuenta corriente y las exportaciones, lo que es consistente con su perfil de economía superavitaria y altamente exportadora. En el extremo opuesto de la Dimensión 2, Chile y Perú se alinean con las variables de crecimiento de la inversión fija y el consumo privado, reflejando economías con dinámicas de expansión más aceleradas. Japón, aunque formalmente cercano al grupo de economías desarrolladas, se proyecta hacia el cuadrante donde convergen las variables de volumen absoluto, actuando como un punto de transición hacia la posición extrema que ocupa Korea. Corea se diferencia de Colombia dentro del Cluster 3: Corea está más asociada a las exportaciones y a un perfil más estable, mientras que Colombia se acerca más al bloque de crecimiento acelerado.
La oposición casi perfecta, de aproximadamente 180 grados, entre la flecha de la cuenta corriente y el bloque de variables de crecimiento (PIB, consumo privado e importaciones) confirma una relación inversa estructural: los países que experimentan los ritmos de expansión más acelerados tienden a registrar los mayores deterioros en su balanza externa, mientras que las economías con menor dinamismo, como Alemania, acumulan los mayores superávits corrientes. Este patrón es consistente con la teoría macroeconómica de la restricción externa al crecimiento, según la cual la expansión de la demanda interna tiende a traducirse en mayores importaciones y presión sobre la cuenta corriente (FMI, 2023).
En el biplot también se puede ver la separación de los clusters: el Cluster 1 (economías consolidadas) se asocia con cuenta corriente y exportaciones; el Cluster 2 (economías emergentes y dinámicas) se asocia con crecimiento, desempleo y tasas de interés altas; y el Cluster 3 (Colombia y Corea) aparece aislado en el extremo derecho del plano, explicado por los volúmenes absolutos de PIB, consumo e inversión.
Clusterización jerárquica método ward
Sobre las coordenadas de los 4 componentes principales retenidos, se aplicó un análisis de clustering jerárquico utilizando el método de Ward y la distancia euclidiana al cuadrado, con el objetivo de identificar agrupaciones de países con perfiles económicos similares.
dend_ward <- as.dendrogram(modelo_ward)
plot(
dend_ward,
cex = 0.7,
main = "Figura 8. Dendrograma del clustering jerárquico"
)El dendrograma generado mediante el método de Ward muestra el proceso completo de fusión jerárquica de los 42 países. Se observa que las primeras fusiones ocurren a alturas muy bajas, por debajo de 3, lo que indica que hay países con perfiles macroeconómicos prácticamente idénticos entre sí. A medida que el proceso avanza, las alturas de fusión aumentan progresivamente hasta que, en la parte superior del árbol, se identifica un salto extremadamente pronunciado (superior a 16) que separa a Colombia y Korea del resto de la muestra. Este salto temprano y de gran magnitud confirma el comportamiento atípico de ambos países, que ya habíamos identificado en el análisis del ACP.
dend_ward %>%
color_branches(k = 3) %>%
color_labels(k = 3) %>%
plot(main = "Figura 9. Dendrograma con colores por cluster")
abline(h = 11, lty = 2)Para determinar el número óptimo de clusters se evaluó conjuntamente el dendrograma y el coeficiente de silueta. El segundo salto relevante en las alturas de fusión, ubicado alrededor de 11, divide al resto de los países en dos grandes grupos adicionales, generando una solución de 3 clusters en total.
Si bien una solución de 4 clusters era técnicamente posible con un corte adicional alrededor de la altura 8, esta dejaba a Estados Unidos como un cluster compuesto por un único país. Ese resultado no aporta valor interpretativo, porque un grupo de un solo elemento no permite caracterizar un perfil compartido. La solución de 3 clusters, en cambio, ubica a Estados Unidos dentro del grupo de economías desarrolladas con las que efectivamente comparte características estructurales, ofreciendo una segmentación más coherente y útil para el análisis.
La línea punteada en el dendrograma representa este corte (altura ≈ 11), separando claramente los tres grupos:
Cluster 3: Colombia y Korea (aislados)
Cluster 2: 12 economías emergentes o intermedias
Cluster 1: 27 economías desarrolladas y de mayor tamaño
Caracterización de Clusters
plot_ly(
coords_plot,
x = ~Dim1,
y = ~Dim2,
color = ~Cluster,
colors = c("#00AFBB", "#E7B800", "#FC4E07"),
text = ~Pais,
customdata = ~paste(
"Pais:", Pais,
"<br>Cluster:", Cluster,
"<br>Dim1:", round(Dim1, 2),
"<br>Dim2:", round(Dim2, 2)
),
hovertemplate = "%{customdata}<extra></extra>",
type = "scatter",
mode = "markers+text",
textposition = "top center",
marker = list(size = 8)
) %>%
layout(
title = "Figura 10. Mapa de individuos - ACP",
xaxis = list(title = "Componente 1"),
yaxis = list(title = "Componente 2")
)La proyección de los 42 países sobre el plano definido por las dos primeras dimensiones del ACP, coloreada según los clusters obtenidos, confirma visualmente la separación que ya habíamos visto en el dendrograma. El Cluster 1 se concentra en el cuadrante superior izquierdo, el Cluster 2 ocupa la zona inferior izquierda, y el Cluster 3 (conformado únicamente por Colombia y Korea) aparece completamente aislado en el extremo derecho del plano, sin solapamiento con los otros dos grupos.
Ambos países del Cluster 3 se ubican en el extremo positivo de la Dimensión 1, que está asociada a valores extremos en las variables de volumen absoluto. Pero se diferencian entre sí en la Dimensión 2: Korea se proyecta hacia valores positivos, relacionados con un perfil más estable, mientras que Colombia se ve arrastrada hacia valores negativos por las variables de crecimiento del consumo privado y las importaciones.
También se observa un solapamiento parcial entre las elipses del Cluster 1 y el Cluster 2 cerca del origen, donde se ubican países con perfiles económicos intermedios como Brasil, España e Italia.
Medias de las variables por cluster
Base15_cluster <- Base15 %>%
mutate(Cluster = clusters_factor)
medias_cluster <- Base15_cluster %>%
group_by(Cluster) %>%
summarise(across(where(is.numeric), mean), .groups = "drop")
medias_cluster %>%
kable(
digits = 2,
format = "html",
caption = "Tabla 11. Medias de las variables por cluster"
) %>%
kable_styling(
bootstrap_options = c("striped", "hover", "condensed"),
full_width = FALSE,
html_font = "Arial"
) %>%
row_spec(0, background = "#00AFBB", color = "white", bold = TRUE)| Cluster | x1 | x5 | x6 | x7 | x10 | x11 | x12 | x15 | x16 | x17 | x20 | x21 | x22 | x26 | x29 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 1.86 | 476421377422 | 4.882831e+12 | 1.273267e+13 | 2.339005e+13 | 1.987817e+12 | 5.644451e+12 | 8.11 | 9.42 | 5.24 | 4.03 | 4.83 | 4.24 | 6.11 | 0.27 |
| 2 | -0.74 | 118641791940 | 4.013684e+12 | 1.854777e+13 | 3.002303e+13 | 5.252834e+11 | 8.253927e+12 | 16.29 | 19.67 | 8.99 | 15.14 | 10.33 | 4.40 | 10.10 | 2.62 |
| 3 | -0.39 | 397400452008 | 2.467779e+14 | 7.759038e+14 | 1.411174e+15 | 1.468621e+12 | 3.685029e+14 | 12.84 | 19.38 | 7.41 | 6.96 | 9.23 | 7.98 | 8.71 | 1.46 |
Esta tabla permite caracterizar económicamente cada grupo:
Cluster 1 Economías consolidadas y estables (28 países). Es el grupo más numeroso de la muestra e incluye a la mayoría de las economías desarrolladas de la OCDE: Alemania, Francia, Italia, España, Reino Unido, los países nórdicos, Estados Unidos, Canadá, Japón y Australia, entre otros. Se caracteriza por presentar el único superávit promedio en cuenta corriente de los tres clusters (+1.86% del PIB) y la tasa de interés de corto plazo más baja (0.27%), lo que refleja entornos financieros maduros y de bajo riesgo. Su tasa de desempleo promedio es la menor de los tres grupos (6.1%). Sus tasas de crecimiento (PIB 5.2%, inversión 4.0%, consumo privado 4.8%) son las más moderadas, lo que es consistente con economías ya desarrolladas que crecen a ritmos estables, menos acelerados que los de las economías emergentes.
Cluster 2 Economías emergentes y dinámicas (12 países). Este grupo reúne países como Chile, Argentina, Perú, Grecia, Türkiye, Sudáfrica, India, Croacia, Eslovenia, Israel, Estonia e Islandia. Se caracteriza por un dinamismo económico extraordinario: presenta las tasas de crecimiento más altas en prácticamente todos los indicadores, con un crecimiento del PIB de 9.0%, una expansión del consumo privado de 10.3% y un crecimiento de la inversión fija de 15.1% (casi cuatro veces superior al del Cluster 1). Sin embargo, este dinamismo viene acompañado de desequilibrios estructurales relevantes: el grupo presenta un déficit promedio en cuenta corriente (-0.74% del PIB), la tasa de desempleo más alta de los tres clusters (10.1%) y la tasa de interés más elevada (2.62%). Esto sugiere presiones inflacionarias que requieren políticas monetarias más restrictivas para contener el sobrecalentamiento de estas economías.
Cluster 3 Perfil atípico de gran escala (Colombia y Korea). Este cluster, compuesto únicamente por dos países, agrupa economías que combinan una escala de volumen absoluto sustancialmente distinta al resto de la muestra con un perfil de dinamismo intermedio entre los otros dos clusters. Presentan un crecimiento del PIB de 7.4%, un crecimiento de importaciones de 19.4% (el más alto de los tres grupos junto con el Cluster 2) y un crecimiento del gasto de consumo del gobierno de 8.0% (el más elevado de la muestra). Su balanza de cuenta corriente es levemente deficitaria (-0.39%) y su desempleo se ubica en un nivel intermedio (8.7%). Esta combinación particular —una escala de volumen extrema con un patrón de crecimiento que no corresponde plenamente ni al perfil estable del Cluster 1 ni al perfil emergente del Cluster 2— explica por qué el algoritmo de Ward los aisló como un grupo independiente desde las primeras etapas del proceso de fusión.
Distribución geográfica de los cluster
mundo_sf <- ne_countries(scale = "medium", returnclass = "sf")
mapa_data <- data.frame(
region = Base15$Pais,
Cluster = clusters_factor
) %>%
mutate(region = recode(region,
"Korea" = "South Korea",
"SouthAfrica" = "South Africa",
"Türkiye" = "Turkey",
"Slovak Republic" = "Slovakia"))
mundo_sf <- mundo_sf %>%
left_join(mapa_data, by = c("name" = "region"))
pal <- colorFactor(
c("#00AFBB", "#E7B800", "#FC4E07"),
domain = c("1", "2", "3"),
na.color = "grey80"
)
leaflet(mundo_sf) %>%
addTiles() %>%
addPolygons(
fillColor = ~pal(Cluster),
fillOpacity = 0.7,
color = "white",
weight = 1,
label = ~paste(name, "- Cluster:", Cluster)
) %>%
addLegend(
pal = pal,
values = ~Cluster,
title = "Cluster",
position = "bottomright"
)El mapa mundial coloreado por cluster permite identificar patrones geográficos que complementan la interpretación económica de los grupos.
El Cluster 1 (turquesa) muestra una distribución amplia que incluye a Canadá, Brasil, Australia y gran parte de Europa Occidental y Septentrional. Esto refleja que las economías consolidadas no se limitan a una región específica, sino que agrupan países con perfiles estructurales similares independientemente de su ubicación. Brasil es un caso particular: aunque está en Sudamérica, comparte más características con economías desarrolladas que con sus vecinos del Cono Sur.
El Cluster 2 (amarillo) se concentra principalmente en el Cono Sur de América Latina (Chile, Argentina y Perú), además de Sudáfrica, India, Grecia y Türkiye. Esto evidencia que las economías emergentes y dinámicas comparten características estructurales a pesar de encontrarse en continentes distintos.
El Cluster 3 (naranja), conformado por Colombia y Korea, aparece como dos puntos aislados y geográficamente distantes entre sí: Colombia en Sudamérica y Korea en Asia Oriental. Esto confirma que su agrupación responde exclusivamente a similitudes en sus indicadores económicos, no a factores de proximidad geográfica o cultural.
Resulta particularmente notable que Colombia, a pesar de su cercanía geográfica con países del Cluster 2 como Perú y Chile, no comparta su perfil económico. Esto refuerza la idea de que la geografía no determina necesariamente el tipo de estructura económica de un país. Japón, aunque clasificado en el Cluster 1, aparece visualmente como un punto de transición entre el Cluster 1 y el Cluster 3, lo que tiene sentido porque es una economía muy grande, pero con un dinamismo propio.
Conclusiones
El análisis realizado permitió identificar tres tipos diferenciados de economías dentro de la OCDE a partir de 15 indicadores que cubren dimensiones de tamaño, dinamismo y balance macroeconómico. El hallazgo más relevante del Análisis de Componentes Principales es que las dimensiones de escala absoluta de la economía y dinamismo de crecimiento son estructuralmente independientes entre sí, como lo evidencia la ortogonalidad casi perfecta entre el bloque de variables de volumen y el bloque de tasas de crecimiento. Esto significa que el tamaño de una economía no determina su velocidad de expansión: existen economías grandes con crecimiento moderado y economías pequeñas con crecimiento acelerado, y viceversa.
La segmentación mediante el método de Ward reveló que la mayoría de los países de la OCDE (28 de 42) se agrupan en un cluster de economías consolidadas, caracterizado por superávits en cuenta corriente, bajas tasas de interés y crecimiento moderado pero estable. Este grupo representa el modelo de desarrollo económico maduro propio de las economías que ya completaron procesos de industrialización y consolidación institucional. En contraste, el segundo cluster, compuesto por 12 economías emergentes y dinámicas, muestra que el crecimiento acelerado tiene un costo: estos países presentan simultáneamente las tasas de crecimiento más altas y los mayores desequilibrios, con déficits en cuenta corriente, mayor desempleo y tasas de interés más elevadas (FMI, 2023). Esto sugiere que el dinamismo económico, cuando no está acompañado de una base productiva suficientemente desarrollada, genera presiones que se traducen en vulnerabilidades estructurales.
El hallazgo más llamativo del análisis es la conformación de un tercer cluster integrado únicamente por Colombia y Corea, dos países geográficamente distantes y sin vínculos históricos o culturales evidentes entre sí. Su agrupación no responde a similitudes en el nivel de desarrollo ni en la región geográfica, sino a una combinación específica de características: una escala de volumen económico que se aleja sustancialmente del resto de la muestra, junto con un patrón de crecimiento que no encaja completamente ni en el perfil estable de las economías consolidadas ni en el perfil de sobrecalentamiento de las economías emergentes. Este resultado ilustra de manera concreta uno de los principales valores del aprendizaje no supervisado: la capacidad de descubrir agrupaciones que no son evidentes a partir de clasificaciones convencionales como el nivel de ingreso, la región geográfica o el grado de industrialización.
La distribución geográfica de los clusters refuerza esta conclusión. Mientras que el Cluster 1 y el Cluster 2 muestran cierta coherencia regional —el primero concentrado en economías europeas, norteamericanas y de Oceanía, y el segundo en el Cono Sur latinoamericano y economías mediterráneas—, el Cluster 3 rompe completamente con cualquier lógica espacial. El caso de Colombia es particularmente revelador: a pesar de su proximidad geográfica y de compartir múltiples características regionales con Chile, Argentina y Perú (países del Cluster 2), su perfil macroeconómico específico la separa de sus vecinos inmediatos. Esto confirma que las similitudes estructurales entre economías no siempre coinciden con la intuición geográfica o cultural, y que un análisis basado exclusivamente en indicadores cuantitativos puede revelar relaciones que de otra forma permanecerían ocultas.
Desde una perspectiva de política económica, estos resultados tienen implicaciones prácticas concretas. Las recomendaciones diseñadas para economías del Cluster 1 —orientadas a mantener la estabilidad y gestionar un crecimiento moderado— serían inadecuadas para los países del Cluster 2, donde el desafío principal no es generar dinamismo sino gestionar los desequilibrios que ese dinamismo produce, particularmente en materia de empleo y balanza externa. Asimismo, el caso de Colombia y Corea sugiere que ambos países podrían beneficiarse de comparar sus propias trayectorias y políticas entre sí, más que con los promedios de sus respectivas regiones, dado que comparten un perfil estructural que ninguno de los dos comparte con sus vecinos geográficos.
No obstante, el análisis tiene limitaciones que vale la pena reconocer. La selección de 15 variables, aunque intencionada, podría complementarse con indicadores de calidad institucional, innovación o distribución del ingreso para refinar la caracterización de los clusters. Además, la naturaleza transversal del análisis —un solo periodo de tiempo— no permite capturar la dinámica de transición entre clusters, es decir, si un país puede moverse del Cluster 2 al Cluster 1 a medida que se desarrolla institucionalmente. Tampoco se incluyeron economías emergentes grandes como China o Indonesia, cuya incorporación podría alterar la estructura de los clusters. Un análisis longitudinal con datos de panel podría responder a estas preguntas en trabajos futuros.
En conjunto, este análisis demuestra que la heterogeneidad económica dentro de la OCDE no se distribuye de manera aleatoria ni puramente geográfica, sino que responde a patrones estructurales identificables mediante técnicas de reducción de dimensionalidad y agrupamiento. La combinación del ACP y el clustering jerárquico de Ward permitió pasar de 15 variables potencialmente redundantes a una taxonomía interpretable de tres perfiles económicos, cada uno con implicaciones diferenciadas para el diseño de políticas públicas y para la comprensión de las dinámicas de desarrollo dentro de un grupo de países que, a pesar de compartir su pertenencia a la OCDE, enfrentan realidades macroeconómicas profundamente distintas.
Referencias
Organización para la Cooperación y el Desarrollo Económicos (OCDE). (2023). OECD Economic Outlook, Volume 2023 Issue 2. OECD Publishing. https://www.oecd.org/en/publications/oecd-economic-outlook/volume-2023/issue-2_7a5f73ce-en.html
Ward, J. H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58(301), 236-244. https://www.semanticscholar.org/paper/Hierarchical-Grouping-to-Optimize-an-Objective-Ward/8eced091ab3e3fd0b1747896cff082711c510d4a
OECD (2023). OECD Economic Outlook, Volume 2023 Issue 2. OECD Publishing. https://doi.org/10.1787/7a5f73ce-en
Jolliffe, I. T. (2002). Principal component analysis (2nd ed.). Springer. https://link.springer.com/book/9780387954424
Ward, J. H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58(301), 236-244. https://doi.org/10.1080/01621459.1963.10500845
Fondo Monetario Internacional. (2023). World Economic Outlook: A Rocky Recovery. International Monetary Fund. https://doi.org/10.5089/9798400239030.081