El estudio de los sistemas económicos globales requiere de herramientas estadísticas capaces de simplificar la complejidad de los mercados internacionales. En un entorno globalizado, las naciones pertenecientes a la Organización para la Cooperación y el Desarrollo Económicos (OECD) interactúan constantemente, compartiendo dinámicas comerciales y financieras complejas. El diseño de políticas públicas eficientes y el análisis macroeconómico tradicional suelen verse limitados al evaluar las variables de forma aislada, lo que dificulta la detección de patrones ocultos o similitudes estructurales entre países. El presente documento expone un análisis estadístico multivariado de tipo no supervisado aplicado a una muestra de 42 países. El objetivo central es caracterizar y segmentar estas economías utilizando un conjunto de indicadores clave seleccionados estratégicamente. A través de este enfoque, se busca responder a interrogantes fundamentales sobre la jerarquización del bienestar financiero, la escala de los mercados y las velocidades de desarrollo, identificando qué factores unifican o diferencian a los miembros de la comunidad internacional.
Para dar cumplimiento a los objetivos planteados y procesar la información de manera rigurosa, se seleccionaron e implementaron dos técnicas fundamentales del aprendizaje estadístico no supervisado: el Análisis de Componentes Principales (ACP) y la Clusterización Jerárquica mediante el Método de Ward:
Antes de ejecutar los modelos matemáticos, la base de datos original de la OECD pasó por un estricto proceso de auditoría y transformación en R para garantizar la calidad del estudio:
Se auditó la presencia de celdas vacías mediante la función colSums(is.na(datos_sel). Esto permitió verificar que la matriz final estuviera limpia y completa, asegurando que ninguna observación con datos incompletos distorsionara los promedios de los grupos.
Dado que las 15 variables seleccionadas se miden en unidades muy diferentes (como millones de dólares, porcentajes de crecimiento o tasas de desempleo), los datos originales no se podían comparar directamente. Si se usaran los valores reales, las variables con números gigantescos (como el volumen del PIB) aplastarían por completo a las variables pequeñas (como las tasas de interés). Para solucionar esto, se aplicó la función scale(), la cual transforma cada variable restándole su media y dividiéndola entre su desviación estándar. Este proceso generó la matriz datos_std, donde todas las variables quedaron centradas exactamente en una media de 0 y una desviación estándar de 1. Así se logró que todos los indicadores económicos pesaran matemáticamente lo mismo en el análisis.
El ACP es una técnica de reducción de dimensionalidad cuyo propósito es transformar un conjunto de variables originales correlacionadas en un número menor de variables independientes llamadas Componentes Principales o Factores. Matemáticamente, el método calcula combinaciones lineales de máxima varianza.
El Primer Componente (Dim.1) absorbe la mayor cantidad de información posible del sistema económico.
El Segundo Componente (Dim.2) captura la mayor parte de la varianza restante bajo una condición de ortogonalidad (independencia total). Esta técnica permite resumir el comportamiento de las economías sin perder datos valiosos, facilitando la creación de mapas visuales bidimensionales denominados Biplots.
La clusterización es un método de clasificación automática que agrupa observaciones (países) en conjuntos mutuamente excluyentes llamados clusters, logrando que los elementos de un mismo grupo sean altamente similares (cohesión) y los grupos entre sí sean lo más diferentes posible (separación). En este reporte se optó por un enfoque jerárquico aglomerativo utilizando la Distancia Euclidiana como medida de disimilitud para emparejar las observaciones. El algoritmo de Ward (específicamente la variante ward.D2) se seleccionó debido a su alta eficiencia, ya que minimiza la suma de los cuadrados de las desviaciones (varianza interna) dentro de cada cluster en cada etapa del agrupamiento. Para determinar de manera óptima y objetiva el número de grupos idóneo (\(k\)) previo a la ejecución del árbol, se utilizó el Método de la Silueta (Silhouette), el cual evalúa de forma matemática la calidad y consistencia del agrupamiento en un rango de opciones del 2 al 10.
Para el análisis descriptivo inicial se ejecutó la tabla de medias y desviaciones con los datos reales (datos_sel). El comportamiento de los indicadores revela asimetrías importantes en la muestra:
#TABLA DE ESTADISTICA DESCRIOTIVA
tabla_desc <- data.frame(
Variable = names(datos_sel),
Media = round(colMeans(datos_sel, na.rm = TRUE),2),
Desv_Est = round(apply(datos_sel,2,sd,na.rm = TRUE),2),
Minimo = round(apply(datos_sel,2,min,na.rm = TRUE),2),
Maximo = round(apply(datos_sel,2,max,na.rm = TRUE),2)
)
tabla_desc
## Variable Media Desv_Est Minimo Maximo
## x1 x1 1.010000e+00 5.080000e+00 -7.280000e+00 1.491000e+01
## x2 x2 7.990000e+00 1.822000e+01 7.300000e-01 9.508000e+01
## x4 x4 3.762049e+11 4.947373e+11 8.363996e+09 2.751302e+12
## x7 x7 5.073561e+13 1.730062e+14 1.310195e+10 8.824598e+14
## x10 x10 9.137015e+13 3.310409e+14 2.601447e+10 1.915777e+15
## x11 x11 1.545227e+12 3.230601e+12 1.884749e+10 2.052937e+13
## x15 x15 1.067000e+01 6.890000e+00 -3.590000e+00 2.782000e+01
## x16 x16 1.282000e+01 8.240000e+00 -8.280000e+00 3.547000e+01
## x17 x17 6.410000e+00 2.870000e+00 1.640000e+00 1.343000e+01
## x20 x20 7.340000e+00 1.081000e+01 -3.907000e+01 3.532000e+01
## x21 x21 6.610000e+00 3.930000e+00 4.000000e-01 2.051000e+01
## x22 x22 4.460000e+00 2.780000e+00 4.100000e-01 1.263000e+01
## x25 x25 2.890000e+00 1.018000e+01 1.000000e+00 6.715000e+01
## x26 x26 7.370000e+00 5.270000e+00 2.820000e+00 3.427000e+01
## x29 x29 1.000000e+00 3.170000e+00 -7.400000e-01 1.871000e+01
Los círculos de color azul oscuro indican relaciones positivas fuertes (si una variable sube, la otra también), mientras que los tonos rojo y naranja indican relaciones negativas (si una variable sube, la otra baja). Los tonos claros o blancos muestran que no hay relación.
Para evaluar la fuerza y dirección de las relaciones lineales entre las 15 variables macroeconómicas seleccionadas, se analizó el gráfico de correlación (Corrplot). A partir de la intensidad de los colores (azul para asociaciones positivas y rojo para negativas), se identifican tres grandes dinámicas en el sistema económico de la OECD:1.
El Bloque del Tamaño de la Economía (Alta Sinergia Positiva):Existe un núcleo de círculos azul oscuro intenso con valores cercanos a 1.0 entre las variables x7 (Gasto en consumo privado), x10 (Volumen del PIB) y x11 (Volumen del PIB PPP). Asimismo, estas variables muestran una fuerte asociación positiva con x4 (Volumen de comercio). Esto demuestra matemáticamente que la escala de los países está unificada: las naciones con los PIB más grandes albergan los mercados de consumo interno más masivos y generan los mayores flujos absolutos de comercio internacional.
El Bloque del Dinamismo y Velocidad de Crecimiento:Se observa una fuerte correlación positiva entre las tasas de crecimiento real. El crecimiento del PIB (x17) camina de la mano con el crecimiento del consumo de los hogares (x21), el crecimiento de la inversión nacional (x20) y el crecimiento de las importaciones (x16). Desde el punto de vista macroeconómico, este comportamiento es lógico: cuando una economía acelera su ritmo de producción, requiere de inmediato aumentar la inversión en infraestructura y maquinaria, lo que a su vez eleva el consumo interno y la necesidad de comprar bienes intermedios del extranjero (importaciones).
El Impacto en el Sector Externo (Relación Inversa / Negativa):El hallazgo más importante del gráfico es el comportamiento de la variable x1 (Balanza de cuenta corriente). Esta variable presenta círculos de color rojo y naranja marcados frente a todo el bloque de crecimiento (x16, x17, x20 y x21). Esta correlación negativa demuestra que las economías de la OECD que crecen a velocidades muy rápidas sufren un deterioro en su balanza comercial, acumulando déficits en su cuenta corriente debido a que su gasto interno en importaciones supera la capacidad de financiamiento con sus exportaciones locales.
El Bloque de Variables Financieras y Estabilidad:Finalmente, la tasa de cambio (x2) muestra una relación positiva moderada (tonos azules claros) con el deflactor del PIB (x25) y las tasas de interés (x29). Esto refleja la estructura de control monetario: los países con presiones inflacionarias internas (mayor deflactor) tienden a experimentar depreciaciones en sus monedas (tipos de cambio más altos) y obligan a sus instituciones financieras a elevar las tasas de interés a corto plazo para intentar enfriar la economía y estabilizar los precios.
library(corrplot)
## corrplot 0.95 loaded
corrplot(correlaciones,
method = "color",
type = "upper",
tl.col = "black",
tl.cex = 0.8)
Esta gráfica de Diagramas de Caja (Boxplots) es fundamental para el capítulo de análisis exploratorio. Al estar construida con los datos estandarizados, permite identificar visualmente el comportamiento de dispersión y, sobre todo, detectar los valores atípicos (outliers), representados por los puntos rojos fuera de las cajas azules.
Para complementar el análisis descriptivo y auditar la simetría de las variables macroeconómicas, se evaluó el gráfico de Diagramas de Caja de las Variables Económicas. Dado que se utilizó la matriz estandarizada (datos_std), todas las distribuciones se encuentran armonizadas en torno al valor central de cero (0), facilitando la detección de observaciones extremas o valores atípicos (outliers), representados por los puntos de color rojo:
Variables con Comportamiento Extremo Unilateral (x25 y x20): Deflactor del PIB (x25): Presenta el valor atípico más alto y severo de todo el estudio, situándose por encima del nivel 6.0. Esto delata de forma contundente la existencia de un país que experimenta un proceso inflacionario o desajuste de precios internos extremadamente crítico y aislado, mientras que el resto de los miembros de la OECD exhiben una caja sumamente comprimida y cercana a cero (estabilidad absoluta de precios).Crecimiento de la Inversión (x20): Revela un comportamiento opuesto, registrando un punto rojo extremo en la parte inferior, por debajo del nivel -4.0. Esto evidencia una contracción o caída dramática en la formación de capital fijo en una economía específica, marcando una anomalía frente al dinamismo inversor promedio del bloque.
Concentración de Riqueza y Escala de Mercado (x7, x10, x11 y x4): Las variables asociadas al volumen absoluto —gasto en consumo privado (x7), volumen del PIB (x10, x11) y volumen de comercio (x4)— muestran una estructura similar: cajas muy delgadas pegadas al cero y una cadena de puntos atípicos que se extienden de manera vertical hacia arriba (superando los niveles de 2.5 y 5.0). Esto demuestra matemáticamente que la escala de la economía no se distribuye de forma equitativa dentro de la OECD; existe un selecto grupo de megapotencias que acaparan el volumen del mercado global, distanciándose drásticamente de los tamaños moderados del resto de los países de la muestra.
Volatilidad en el Sector Financiero y Monetario (x2 y x29): Tanto el tipo de cambio (x2) como las tasas de interés a corto plazo (x29) exhiben puntos atípicos en la parte superior. Esto es un reflejo directo de las políticas de estabilización: los países que sufren depreciaciones aceleradas en sus monedas locales (puntos altos en x2) registran simultáneamente anomalías en sus tasas de interés (puntos altos en x29), debido a la necesidad de endurecer el costo del dinero para contener las fugas de capital.
Variables de Mayor Homogeneidad (x17, x22):En contraposición, variables como el crecimiento real del PIB (x17) y el crecimiento del gasto público (x22) son las que muestran un comportamiento más simétrico y libre de puntos extremos exagerados. Las cajas son más amplias, lo que indica que los ritmos de expansión y el gasto gubernamental se distribuyen de manera más uniforme y homogénea entre los 42 países analizados.
#BOXPLOTS
library(tidyr)
library(ggplot2)
# 2. Transformar tus datos estandarizados a formato largo
datos_std_long <- datos_std %>%
pivot_longer(
cols = everything(),
names_to = "variable",
values_to = "value"
)
# 3. Dibujar el Boxplot
ggplot(datos_std_long, aes(x = variable, y = value)) +
geom_boxplot(fill = "lightblue", color = "darkblue", outlier.color = "red") +
labs(
title = "Diagramas de Caja de las Variables Económicas Estandarizadas",
x = "Variables",
y = "Valores Estandarizados"
) +
theme_minimal() +
theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hspace = 1))
## Warning in element_text(angle = 90, vjust = 0.5, hspace = 1): `...` must be empty.
## ✖ Problematic argument:
## • hspace = 1
ggplot(datos_sel, aes(x = x17)) +
geom_histogram(bins = 10, color = "black", fill = "steelblue") +
theme_minimal() +
labs(
title = "Distribución del Crecimiento del PIB",
subtitle = "Análisis comparativo de 42 países",
x = "Crecimiento del PIB (%)",
y = "Número de países"
)
Para evaluar la forma de la distribución del dinamismo macroeconómico, se analizó el gráfico de Distribución del Crecimiento del PIB (x17). Este histograma agrupa a los 42 países de la muestra según su tasa porcentual de expansión económica, revelando las siguientes características estructurales:
La Norma Económica Global (Comportamiento Central):El gráfico muestra una clara concentración de frecuencias en la zona central e izquierda. La barra más alta del histograma alcanza un conteo de 12 países, situándose justo antes del umbral del 5% de crecimiento. Si se suman las barras contiguas, se evidencia que la gran mayoría de las naciones analizadas (más de 25 países) comparten un ritmo de crecimiento estable, saludable y moderado que oscila entre el 3% y el 7%. Este rango representa el comportamiento estándar y la norma operativa del bloque bajo estudio.
Asimetría Positiva (Sesgo a la Derecha):La distribución no es simétrica (forma de campana perfecta), sino que exhibe una asimetría hacia la derecha con una “cola” que se estira de forma gradual hacia valores elevados. Esto indica matemáticamente la presencia de una minoría de países con comportamientos dinámicos excepcionales que superan por mucho el promedio general del grupo.
Economías en Fase de Expansión Acelerada (Booms):En el extremo derecho de la gráfica se identifican barras aisladas pero significativas: un pequeño grupo de 3 países logra tasas de crecimiento situadas entre el 10% y el 11%, mientras que 2 economías alcanzan un auge extraordinario con variaciones cercanas al 13% o 14%. Estos casos representan mercados emergentes o naciones en fases de fuerte expansión económica que lideran el dinamismo global del conjunto de datos.
Ausencia de Crisis o Recesión:Un hallazgo fundamental desde la perspectiva macroeconómica es el comportamiento del límite inferior izquierdo. El histograma inicia su conteo por encima del 1% de crecimiento. Al no registrarse ninguna frecuencia o barra en valores inferiores a cero (0), se confirma de manera contundente que ninguno de los 42 países de la muestra experimentó procesos de recesión o contracción económica durante el período registrado; la totalidad del bloque logró expandir su nivel de producción.
#comenzamos mirando k óptimo de clusters Ward con Método de la silueta (silhouette)
# Evaluar cuántos grupos son ideales usando SOLO el Método de Ward con tus 15 variables
# Calcular silueta para k = 2 a 10 (REcoemendado para informe)
silueta_optimo <- fviz_nbclust(datos_std,
FUN = hcut,
method = "silhouette",
k.max = 10,
hc_method = "ward.D2") +
labs(title = "Método de Silueta - Número Óptimo de Clusters",
subtitle = "Datos Económicos OECD (15 variables seleccionadas)",
x = "Número de Grupos (k)",
y = "Ancho Promedio de la Silueta") +
theme_minimal() +
geom_vline(xintercept = which.max(fviz_nbclust(datos_std,
FUN = hcut,
method = "silhouette",
k.max = 10)$data$y),
linetype = "dashed", color = "red", linewidth = 1)
print(silueta_optimo)
Para segmentar las 42 economías de la OECD de manera objetiva, el primer paso consistió en definir matemáticamente cuántos grupos (clusters) se debían formar. De acuerdo con la metodología establecida, se aplicó el Método de la Silueta (Silhouette) evaluando un rango de agrupamientos posibles que va desde \(k = 2\) hasta \(k = 10\) clusters, utilizando el algoritmo jerárquico de Ward (ward.D2) sobre la matriz de datos estandarizados (datos_std.
Al observar la gráfica obtenida, el análisis revela las siguientes conclusiones métricas relevantes para el informe:Identificación del Pico Máximo (\(k = 5\)):
El gráfico traza el “Ancho Promedio de la Silueta” en el eje vertical frente al “Número de Grupos (\(k\))” en el eje horizontal. El algoritmo de R colocó una línea vertical punteada de color rojo exactamente en el valor \(k = 5\) [source: 2]. Esto se debe a que en ese punto la curva alcanza su nivel más alto, con un valor de ancho promedio de silueta de aproximadamente 0.25.
Significado Matemático del Resultado:Un valor de silueta máximo en 5 grupos demuestra que esta es la configuración estructural que mejor optimiza de manera simultánea dos características clave del aprendizaje no supervisado: la cohesión interna (que los países dentro de una misma familia compartan economías casi idénticas) y la separación externa (que las fronteras económicas entre los 5 bloques queden firmemente definidas y diferenciadas).
Comportamiento de las demás Alternativas:El gráfico permite validar por qué se descartaron otras opciones. Por ejemplo, al intentar agrupar en solo 3 grupos, la métrica cae ligeramente a 0.23, lo que implicaría mezclar economías muy diferentes en una misma bolsa. De igual forma, si se crean demasiados grupos (como \(k = 10\)), la silueta se desploma bruscamente por debajo de 0.17, indicando que el modelo estaría artificialmente sobresegmentando la base de datos sin un sustento económico real.
Por consiguiente, bajo el criterio estricto de optimización matemática del método de la silueta, se justifica y selecciona la partición definitiva del conjunto de datos en exactamente 5 clusters para proceder con la generación del dendrograma y el análisis de perfiles promedio.
#Calcular las distancias euclidianas con los datos estandarizados
distancias_paises <- dist(datos_std, method = "euclidean")
#Aplicar el Método de Ward (se usa "ward.D2" que es la versión matemática correcta)
analisis_ward <- hclust(distancias_paises, method = "ward.D2")
# DENDROGRAMA COMPLETO
#############################################################
k_optimo <- 5
fviz_dend(
analisis_ward,
k = k_optimo,
cex = 0.7, # tamaño etiquetas
k_colors = "jco", # colores suaves
color_labels_by_k = TRUE,
rect = TRUE, # dibuja rectángulos
rect_fill = FALSE, # sin relleno
rect_border = "jco",
show_labels = TRUE, # mostrar etiquetas
main = "Dendrograma de Países - Método de Ward",
xlab = "Países",
ylab = "Distancia"
)
Una vez definido que la estructura óptima corresponde a 5 grupos, se
generó el Dendrograma de Países utilizando el Método de Ward. Este
gráfico de árbol jerárquico representa de forma geométrica el mapa de
distancias euclidianas entre las observaciones, dividiendo a los 42
países en 5 bloques independientes identificados por líneas de colores y
rectángulos punteados:
El Bloque Mayoritario de Estabilidad Económica (Rama Gris):El rectángulo gris del centro de la gráfica representa al grupo más masivo y denso del estudio. Agrupa a la gran mayoría de las naciones (como los países número 1, 10, 28, 2, 21, 31, entre muchos otros). Sus uniones se realizan en la parte baja del eje vertical (distancias menores a 5), lo que demuestra matemáticamente que estas naciones comparten perfiles macroeconómicos sumamente homogéneos y estables, representando la norma operativa de la OECD.
El Bloque de Alta Expansión y Comercio (Rama Azul Claro - Extremo Derecho):A la derecha del árbol se observa un grupo muy bien definido bajo un rectángulo azul claro, integrado por naciones como la 33, 42, 5, 6, 39, 40, entre otras. Este bloque se separa muy arriba en el árbol (cerca de la distancia 11) del gran grupo gris. Esto visualiza la fuerte brecha que existe entre las economías tradicionales y este conjunto de países, caracterizados por ritmos acelerados de crecimiento en sus PIB y volúmenes comerciales masivos.
Casos Singulares y Aislados (Ramas Azul Oscuro, Amarilla y Roja):El análisis jerárquico es sumamente eficiente para aislar anomalías macroeconómicas. El dendrograma separa de manera temprana tres “ramas independientes” compuestas por un solo país cada una, debido a que sus datos se distancian por completo de la media global:
Cluster Azul Oscuro (Extremo Izquierdo): Compuesto únicamente por el país número 35, el cual se une al tronco principal a una distancia muy elevada (nivel 11), delatando un comportamiento asimétrico único.
Cluster Amarillo (Izquierda): Integrado exclusivamente por el país número 20. Su separación inmediata muestra que sus variables financieras o de escala no encajan con ningún otro miembro de la muestra.
Cluster Rojo (Centro-Derecha): Formado de forma solitaria por el país número 36. Actúa como un puente o elemento de transición antes del gran bloque de expansión azul claro, pero con la distancia suficiente para ser catalogado como un grupo propio.
El dendrograma confirma visualmente que el Método de Ward logró una segmentación limpia: un núcleo central muy grande y estable (gris), un segundo bloque dinámico y comercial muy fuerte (azul claro), y tres economías individuales con realidades financieras totalmente extremas o atípicas (azul oscuro, amarillo y rojo).
library(dplyr)
# 1. Creamos de forma obligatoria las variables que le faltan a R aquí
distancias_paises <- dist(datos_std, method = "euclidean")
analisis_ward <- hclust(distancias_paises, method = "ward.D2")
grupos <- cutree(analisis_ward, k = 5)
# 2. Creamos datos_cluster con la "C" mayúscula exacta
datos_cluster <- data.frame(Cluster = grupos, datos_sel)
# 3. Tu resumen de cada cluster corregido con "C" mayúscula
resumen_cluster <- datos_cluster %>%
group_by(Cluster) %>%
summarise(
across(
everything(),
mean,
na.rm = TRUE
)
)
## Warning: There was 1 warning in `summarise()`.
## ℹ In argument: `across(everything(), mean, na.rm = TRUE)`.
## ℹ In group 1: `Cluster = 1`.
## Caused by warning:
## ! The `...` argument of `across()` is deprecated as of dplyr 1.1.0.
## Supply arguments directly to `.fns` through an anonymous function instead.
##
## # Previously
## across(a:b, mean, na.rm = TRUE)
##
## # Now
## across(a:b, \(x) mean(x, na.rm = TRUE))
resumen_cluster
## # A tibble: 5 × 16
## Cluster x1 x2 x4 x7 x10 x11 x15 x16 x17 x20
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 1 1.93 3.92 3.86e11 1.23e13 2.28e13 1.26e12 8.34 9.65 5.19 4.26
## 2 2 -1.29 10.7 1.35e11 8.09e13 1.15e14 5.60e11 17.1 20.2 9.43 13.4
## 3 3 4.86 11.4 6.98e11 8.82e14 1.92e15 2.23e12 10.8 10.1 4.15 2.76
## 4 4 -3.63 1 2.75e12 1.38e13 1.96e13 2.05e13 6.05 14.1 5.95 5.72
## 5 5 1.37 95.1 7.29e10 4.69e11 6.89e11 8.28e11 9.22 22.0 10.4 33.4
## # ℹ 5 more variables: x21 <dbl>, x22 <dbl>, x25 <dbl>, x26 <dbl>, x29 <dbl>
A partir de los promedios calculados para cada conglomerado en la tabla resumen_cluster, se realiza la caracterización económica de los 5 grupos de países identificados:
Cluster 1: Economías Estables de Crecimiento Moderado. Este grupo representa el comportamiento estándar y equilibrado de gran parte de la OECD. Muestra un crecimiento del PIB (x17) moderado y saludable del 5.19%, respaldado por un crecimiento constante en el consumo privado (x21 de 4.81%) y en la inversión (x20 de 4.26%). Además, mantienen una balanza de cuenta corriente positiva (x1 de 1.93) y un mercado de divisas muy estable (x2 de 3.92), lo que indica economías maduras y de bajo riesgo.
Cluster 2: Economías en Vías de Desarrollo con Expansión Dinámica. Este bloque destaca por una fuerte aceleración económica, registrando un alto crecimiento del PIB promedio del 9.43%. Este dinamismo está fuertemente impulsado por el sector externo, con un incremento masivo tanto en sus exportaciones (x15 de 17.1%) como en sus importaciones (x16 de 20.2%). El consumo interno (x21 de 11.0%) también es muy vigoroso, aunque operan con un ligero déficit en su cuenta corriente (x1 de -1.29), típico de países que importan mucho capital para poder crecer.
Cluster 3: Megaeconomías y Potencias Globales de Gran Volumen. Los países de este grupo se diferencian radicalmente de los demás por sus dimensiones extraordinarias en términos de volumen absoluto. Registran los niveles más gigantescos de consumo privado (x7 en el orden de \(8.82 \times 10^{14}\)) y de volumen de PIB (x10 en \(1.92 \times 10^{15}\)). Aunque su tasa de crecimiento del PIB (x17) es la más baja del estudio (4.15%), esto es normal en economías ya desarrolladas y masivas que priorizan la estabilidad frente a la expansión acelerada. Tienen, además, la balanza comercial más superavitaria (x1 de 4.86).
Cluster 4: Economías de Consumo con Alto Déficit Externo. Este grupo muestra un crecimiento del PIB aceptable del 5.95%, el cual está sostenido de forma interna por un fuerte crecimiento en el consumo privado (x21 de 8.29%). Sin embargo, su principal señal de alerta es que posee el déficit de cuenta corriente más profundo de todo el análisis (x1 de -3.63). Esto significa que estos países están gastando e importando mucho más de lo que producen hacia el exterior, dependiendo fuertemente del financiamiento extranjero.
Cluster 5: Economías con Alta Volatilidad y Reajuste Financiero. Es el grupo con el comportamiento más atípico y extremo del estudio. Por un lado, lidera el crecimiento económico con un impresionante 10.4% en el PIB y un desborde espectacular en la inversión (x20 de 33.4%). No obstante, opera bajo un escenario de altísima volatilidad cambiaria, con un índice de tasa de cambio (x2) promedio de 95.1, lo que sugiere fuertes devaluaciones o fluctuaciones en sus monedas locales. Son mercados de altísimo rendimiento pero acompañados de un riesgo financiero elevado.
Para reducir la dimensionalidad de las 15 variables originales de la OECD y evaluar la estructura de los datos, se calcularon los eigenvalores (eigenvalues) correspondientes a cada componente principal. A partir de la tabla de varianza obtenida en la consola de R, se analizan los siguientes criterios de selección:
Criterio de Kaiser (Eigenvalores mayores a 1): Al revisar la columna eigenvalue, se observa que las primeras 6 dimensiones (Dim.1 a Dim.6) presentan un valor superior a 1 (comenzando en 3.65 para la dimensión 1 y finalizando en 1.22 para la dimensión 6). Matemáticamente, esto indica que cada una de estas 6 dimensiones retiene más información que una sola variable original por separado.
La primera dimensión (Dim.1) explica por sí sola el 24.37% de la varianza total de los datos económicos.
La segunda dimensión (Dim.2) aporta un 14.33% adicional.
Al analizar de forma acumulada (columna cumulative.variance.percent), se identifica que las dos primeras dimensiones logran explicar un 38.70% de la información. Si el objetivo del análisis es una representación visual simple bidimensional mediante un gráfico de Biplot, se justifica el uso de las dimensiones 1 y 2 para mapear las relaciones generales entre los 42 países de la OECD.
Si se desea cumplir de forma estricta con el criterio de superar el 70% u 80% de la varianza total para un modelo explicativo completo, se requeriría retener las primeras 5 dimensiones (que acumulan el 72.52%) o las primeras 6 dimensiones (que acumulan el 80.67%).
Interpretación de los Componentes Principales (Significado de los Factores)Para comprender el significado económico de las dimensiones, se analizó el comportamiento conjunto de las 15 variables.
# 1. Asegurar librería necesaria
library(factoextra)
# 2. Forzar el cálculo del ACP en este bloque
res.pca <- prcomp(datos_std, scale = FALSE)
# 3. Tu gráfico original del círculo de correlación
fviz_pca_var(
res.pca,
col.var = "contrib",
gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
repel = TRUE,
title = "Círculo de Correlación de Variables Económicas"
)
A partir del Círculo de Correlación y la matriz de contribuciones, se definen los dos factores principales que ordenan el sistema económico:
Dimensión 1 (Eje Horizontal - 24.4% de varianza): “Factor de Expansión y Dinamismo Económico”Las variables que registran las flechas más largas y con mayor nivel de contribución hacia el extremo derecho son las tasas de velocidad: x17 (Crecimiento del PIB), x20 (Crecimiento de la inversión) y x21 (Crecimiento del consumo privado). Esto demuestra que este eje mide el ritmo de aceleración interna de los países. Relación Inversa: La variable x1 (Balanza de cuenta corriente) apunta de forma opuesta hacia la izquierda, lo que confirma que las naciones con mayor dinamismo interno sufren un impacto negativo en su saldo exterior.
Dimensión 2 (Eje Vertical - 14.3% de varianza): “Factor de Escala y Tamaño Absoluto del Mercado”Las variables que apuntan de forma vertical hacia arriba con un color naranja intenso (máxima aportación) son x10 (Volumen del PIB) y x7 (Gasto en consumo privado total). Este eje no mide la velocidad, sino el tamaño bruto de la economía. Los países situados en la parte alta de la gráfica poseen mercados masivos, mientras que los de la parte baja poseen estructuras de menor escala.
matriz de contribucion Para dar un sustento matemático sólido al significado de los factores, se evaluó la matriz de contribuciones de las variables para las dos primeras dimensiones (Dim.1 y Dim.2). Los valores representan el porcentaje de participación de cada indicador en la construcción de cada componente principal:
# 6. VER LA MATRIZ DE CONTRIBUCIONES
# Tabla fundamental para saber qué variables "pesan" en el Componente 1 y 2
res.var <- get_pca_var(res.pca)
res.var$contrib[, 1:2] # Muestra la contribución para las dos primeras dimensiones
## Dim.1 Dim.2
## x1 8.1005981 0.49223057
## x2 6.7093681 0.26110985
## x4 5.1430097 6.32327714
## x7 0.5107570 37.99221389
## x10 0.1273296 37.25935219
## x11 1.8427525 5.26273319
## x15 3.7810024 1.07462107
## x16 16.0311334 1.09065918
## x17 12.8719717 0.02452476
## x20 13.2057827 0.02230884
## x21 17.3827017 0.43897069
## x22 1.9411083 6.33609960
## x25 5.5989737 0.68665102
## x26 2.1471630 2.12884777
## x29 4.6063482 0.60640023
Interpretación de las Contribuciones Principales:Variables clave en la Dimensión 1 (Eje Horizontal):
Este componente está fuertemente dominado por el bloque de dinamismo y velocidad económica. Las mayores contribuciones pertenecen a x21 (17.38%), x16 (16.03%), x20 (13.21%) y x17 (12.87%). Juntas, estas cuatro variables acumulan casi el 60% de la información de este eje, confirmando de manera numérica que la Dimensión 1 mide el ritmo de aceleración interna de los países. También destaca la participación de la Balanza de Cuenta Corriente (x1 con 8.10%), señalando su peso en este balance dinámico.
Variables clave en la Dimensión 2 (Eje Vertical):La estructura de este eje es sumamente clara y concentrada. Dos variables absorben de forma masiva la información: x7 (37.99%) y x10 (37.26%). Al sumar sus aportaciones, se evidencia que representan más del 75% de la construcción de la Dimensión 2. Esto demuestra matemáticamente que este eje actúa de forma exclusiva como un indicador de escala absoluta o tamaño macroeconómico bruto de las naciones, dejando en un plano casi nulo a las tasas de velocidad o crecimiento (como x17 con apenas un 0.02%).
El gráfico de Biplot permite cruzar de forma simultánea el comportamiento de las 15 variables (flechas azules) con la posición geográfica de las 42 naciones bajo estudio (puntos grises numerados).
# 5. EL BIPLOT - CORREGIDO
fviz_pca_biplot(res.pca,
repel = TRUE,
col.var = "#2E9FDF",
col.ind = "#696969",
title = "Biplot del ACP: Paises y Variables"
)
Cuadrante Superior Derecho (Grandes Potencias en Crecimiento):En este sector destacan de forma clara los países número 6 y 5. Al situarse en la zona positiva de ambos ejes, representan a las economías líderes que combinan un tamaño de mercado inmenso (altos volúmenes de PIB y consumo) con tasas de crecimiento interno muy dinámicas.
Cuadrante Inferior Derecho (Economías Emergentes Aceleradas):Naciones como la 36, 40, 33 y 38 se posicionan con fuerza en este cuadrante. Estos países están fuertemente alineados con las flechas de crecimiento del PIB (x17), inversión (x20) y exportaciones (x15). Son economías con una escala de mercado más pequeña que las potencias del norte, pero que se expanden a gran velocidad. El país 36 es el caso más extremo de dinamismo e inversión.
Cuadrante Superior Izquierdo (Economías Grandes de Ritmo Lento):El caso más extremo y aislado en esta zona es el país número 20, seguido a menor escala por el 35, 19 y 12. Estas naciones poseen un volumen económico e industrial importante (x4 y x11), pero sus tasas de crecimiento actuales son bajas, situándose en el lado totalmente opuesto a las flechas de expansión.
Cuadrante Inferior Izquierdo (Economías de Menor Escala y Estabilidad Externa):La mayor parte de la muestra (países como el 16, 25, 32, 10, 31, 7, entre otros) se concentra densamente en este cuadrante. Son naciones con mercados internos más pequeños y velocidades de crecimiento moderadas. Su cercanía a la flecha x1 demuestra que priorizan la estabilidad en su balanza comercial externa antes que los grandes gastos de consumo interno.
Tras la aplicación rigurosa de las técnicas de aprendizaje estadístico no supervisado sobre el conjunto de indicadores macroeconómicos de la OECD, se presentan las siguientes conclusiones fundamentales del estudio:
Efectividad de la Reducción de Dimensionalidad: El Análisis de Componentes Principales (ACP) demostró ser una herramienta altamente eficiente al resumir el comportamiento de 15 indicadores complejos en dos grandes factores rectores que acumulan el 38.7% de la varianza global. El análisis matemático reveló que el entorno de la OECD no se define por variables aisladas, sino por dos dinámicas independientes bien marcadas: el ritmo de aceleración y consumo interno (Dimensión 1) y la escala absoluta o tamaño del mercado productor (Dimensión 2).
Identificación de las Brechas de Escala: El estudio dejó en evidencia las profundas asimetrías estructurales que coexisten dentro del bloque. La alta concentración de atípicos en variables de volumen absoluto (x7 y x10) reflejada en los gráficos de caja, sumada al peso masivo de estas variables en la Dimensión 2 (aportando juntas más del 75% de la varianza de ese eje), confirma la existencia de un grupo selecto de megapotencias comerciales que operan en una escala inalcanzable para los miembros geográficamente más pequeños, independientemente de la velocidad a la que estos últimos logren expandirse.
Consistencia de la Segmentación en 5 Bloques: El Método de la Silueta validó de manera objetiva que la configuración de 5 clusters es la que mejor optimiza la cohesión interna y la separación de las economías. El cruce de los perfiles promedio de la tabla resumen_cluster con el árbol de vinculación del Dendrograma permitió mapear con precisión el ecosistema global, transitando desde un núcleo mayoritario de estabilidad y crecimiento moderado (Cluster 1), hasta bloques con perfiles extremos caracterizados por un dinamismo externo acelerado (Cluster 2) o por una fuerte vulnerabilidad cambiaria y financiera (Cluster 5).
La Paradoja del Crecimiento y el Sector Externo: Tanto el análisis de correlación lineal (Corrplot) como el comportamiento del Círculo de Correlación expusieron una constante macroeconómica clave: la relación inversa entre el dinamismo doméstico y la salud de la balanza comercial. Aquellas economías tipificadas por un crecimiento vigoroso del PIB y del consumo privado (visibles con claridad en los perfiles de los Clusters 2, 4 y 5 y en el extremo derecho del Biplot) experimentan de forma sistemática presiones negativas en su cuenta corriente debido al desborde de importaciones requerido para sostener su expansión, lo que resalta la necesidad de implementar políticas públicas orientadas al equilibrio de la balanza exterior en fases de auge.