Introducción

El Análisis de Componentes Principales (ACP) es una técnica estadística multivariante cuyo propósito es reducir la dimensionalidad de los datos y facilitar su interpretación, manteniendo la mayor cantidad posible de variabilidad original (Jolliffe & Cadima, 2016). A través de la transformación lineal de las variables originales en un nuevo conjunto de componentes no correlacionados, el ACP permite identificar patrones y estructuras subyacentes en la información (Abdi & Williams, 2010).

En el ámbito de las ciencias sociales y económicas, esta metodología ha demostrado ser una herramienta fundamental para explorar relaciones complejas entre indicadores y construir tipologías o clasificaciones basadas en múltiples dimensiones (Hair et al., 2019). Según Peña (2002), el ACP posibilita representar gráficamente la información de manera más comprensible, facilitando la identificación de grupos o comportamientos similares entre observaciones.

Problema

El problema central del trabajo es identificar patrones de desarrollo entre países usando datos del Banco Mundial. Dada la gran cantidad de indicadores sociales y ambientales disponibles, se busca reducir la complejidad de la información y agrupar a los países según sus similitudes.

identificar patrones de desarrollo, gobernanza, infraestrucura y bienestar El análisis pretende responder qué variables explican mejor las diferencias entre naciones, cuántas dimensiones concentran la mayor parte de la información y qué grupos de países comparten características comunes.

Metodología

La metodología del trabajo se desarrolló en seis etapas principales. Primero, se seleccionó una base de datos del Banco Mundial, filtrando únicamente países y eligiendo el año 2018 para contar con información reciente y comparable. Se escogieron diecisiete variables cuantitativas relacionadas con economía, educación, salud, medio ambiente y demografía, priorizando su relevancia y disponibilidad. Los datos fueron estandarizados para garantizar comparabilidad entre indicadores con diferentes escalas.

Luego, se realizó un análisis descriptivo para conocer el comportamiento de las variables mediante estadísticas básicas (promedio, mediana, desviación estándar) y gráficos que facilitaron la identificación de patrones iniciales y posibles valores atípicos.

Posteriormente, se aplicó un Análisis de Componentes Principales (ACP) con el fin de reducir la dimensionalidad de los datos y concentrar la mayor parte de la información en pocos componentes. Se analizó la matriz de correlaciones, la varianza explicada y se interpretaron los primeros componentes, que reflejaron factores asociados al desarrollo económico y social de los países.

Con los resultados del ACP, se realizó una clusterización jerárquica mediante el método de Ward, agrupando a los países según su similitud en los componentes principales. Se determinaron cinco clusters, los cuales fueron caracterizados de acuerdo con sus niveles de desarrollo y condiciones estructurales.

Finalmente, se interpretaron los resultados identificando qué componentes explican mayor variabilidad y qué patrones globales emergen. Este proceso permitió evidenciar diferencias claras entre grupos de países y destacar cómo el ACP y la clusterización pueden ser útiles para analizar desigualdades y apoyar la formulación de políticas internacionales.

Selección de la base de datos

La base de datos utilizada proviene del Banco Mundial, una fuente reconocida por su cobertura global y la disponibilidad de indicadores económicos, sociales y ambientales actualizados. Se seleccionó el año 2018 para contar con información reciente y comparable entre países.

Del conjunto total de datos, se filtraron únicamente las observaciones correspondientes a países individuales, excluyendo regiones o bloques económicos. Posteriormente, se eligieron 17 variables cuantitativas que reflejan distintos aspectos del desarrollo, como la esperanza de vida, el acceso a educación, etc.

Descripcion de las variables

Variable Nombre en la base Descripción Unidad
gasto_salud Healthcare expenditure (% of GDP) Gasto total en salud como porcentaje del PIB %
inmunizacion Immunization, DPT (% of children ages 12-23 months) Proporción de niños inmunizados contra difteria, tétanos y tos ferina %
cocina_limpia Access to clean cooking fuels and technologies (% of population) Acceso a tecnologías limpias para cocinar %
tasa_nacimiento Birth rate, crude (per 1,000 people) Nacimientos por cada 1,000 habitantes
tasa_mortalidad Death rate, crude (per 1,000 people) Muertes por cada 1,000 habitantes
polucion PM2.5 air pollution, mean annual exposure (µg/m³) Exposición promedio anual a partículas finas µg/m³
densidad_pob Population density (people per km²) Habitantes por kilómetro cuadrado hab/km²
expectativa_vida Life expectancy at birth (years) Esperanza de vida al nacer años
tasa_motalidad_inf Mortality rate, infant (per 1,000 live births) Muertes de menores de 1 año por cada 1,000 nacidos vivos
tasa_suicidio Suicide mortality rate (per 100,000 population) Tasa de mortalidad por suicidio por 100,000
control_corrupcion Control of Corruption: Estimate Índice de control de la corrupción (escala estandarizada) Índice
tasa_fertilidad_fem Fertility rate, total (births per woman) Número promedio de hijos por mujer hijos/mujer
efectividad_gobierno Government Effectiveness: Estimate Calidad de los servicios públicos y capacidad de implementación de políticas Índice
acceso_acueducto Access to electricity (% of population) Acceso a electricidad %
acceso_alcantarillado Improved sanitation facilities (% of population with access) Acceso a saneamiento mejorado %
tuberculosis Tuberculosis incidence (per 100,000 people) Nuevos casos de tuberculosis por 100,000 habitantes por 100,000
pais Country Name Nombre del país

Estadistica descriptiva

En la siguiente tabla se puede visualizar las principales medidas de tendencia, dispersión y distribución de las 16 variables seleccionadas desde la base de datos del Banco Mundial. Organizar un poco

Estadisticas Descriptivas Detalladas
vars n mean sd median trimmed mad min max range skew kurtosis se
gasto_salud 1 159 6.21 2.67 5.93 6.02 2.69 1.76 16.62 14.86 0.77 0.54 0.21
inmunizacion 2 159 87.57 13.02 92.00 90.02 7.41 35.00 99.00 64.00 -1.82 3.18 1.03
cocina_limpia 3 159 63.91 38.54 82.00 66.99 26.69 0.00 100.00 100.00 -0.54 -1.40 3.06
tasa_nacimiento 4 159 21.26 10.26 19.60 20.50 12.90 7.30 45.67 38.37 0.50 -0.92 0.81
tasa_mortalidad 5 159 7.78 2.66 7.27 7.63 2.25 0.96 15.00 14.04 0.46 0.14 0.21
polucion 6 159 27.10 16.90 21.55 24.89 12.92 5.50 86.02 80.53 1.19 0.69 1.34
densidad_pob 7 159 134.59 214.21 78.03 93.73 79.12 2.06 1577.00 1574.94 4.63 25.72 16.99
expectativa_vida 8 159 71.44 7.84 72.00 71.84 8.72 51.91 83.75 31.85 -0.40 -0.63 0.62
tasa_motalidad_inf 9 159 23.27 20.47 15.20 20.61 17.20 1.90 91.80 89.90 1.00 0.24 1.62
tasa_suicidio 10 159 8.86 6.30 7.10 8.10 4.89 0.00 29.85 29.85 1.21 1.29 0.50
control_corrupcion 11 159 -0.17 0.96 -0.39 -0.25 0.79 -1.79 2.17 3.96 0.77 -0.09 0.08
tasa_fertilidad_fem 12 159 2.81 1.37 2.38 2.65 1.24 1.23 6.71 5.48 0.91 -0.09 0.11
efectividad_gobierno 13 159 -0.16 0.95 -0.30 -0.19 0.83 -2.32 2.01 4.33 0.32 -0.36 0.08
acceso_acueducto 14 159 86.08 16.63 94.19 88.76 8.51 35.85 100.00 64.15 -1.18 0.26 1.32
acceso_alcantarillado 15 159 73.20 28.77 86.70 76.68 18.40 8.35 100.00 91.65 -0.81 -0.83 2.28
tuberculosis 16 159 118.56 146.86 53.00 90.81 68.35 1.00 677.00 676.00 1.67 2.35 11.65

Reducción de dimensionalidad: ACP

Colocar chunk de dimensionalidad, está matriz de correlación

El Análisis de Componentes Principales (ACP) se utilizó para reducir la cantidad de variables y resumir la información contenida en los distintos indicadores de los países. Este método transforma las variables originales —altamente correlacionadas— en un conjunto menor de componentes principales que conservan la mayor parte de la varianza total.

Aporte explicado por variable
Dim.1 Dim.2 Dim.3 Dim.4 Dim.5
gasto_salud 2.20 11.80 6.84 7.78 6.31
inmunizacion 5.03 1.88 1.56 3.01 3.39
cocina_limpia 8.98 0.38 4.76 1.91 0.14
tasa_nacimiento 10.31 0.11 0.00 5.58 0.05
tasa_mortalidad 0.01 30.40 0.03 10.44 22.79
polucion 3.69 7.87 1.37 1.31 18.44
densidad_pob 0.21 6.08 73.41 11.12 2.59
expectativa_vida 10.50 1.37 0.00 0.54 0.03
tasa_motalidad_inf 10.13 0.80 0.47 0.23 0.62
tasa_suicidio 0.66 28.43 0.07 3.06 2.75
control_corrupcion 6.32 3.60 3.29 27.44 0.00
tasa_fertilidad_fem 9.86 0.00 0.00 7.04 1.36
efectividad_gobierno 8.49 1.32 1.52 13.03 0.12
acceso_acueducto 9.43 1.48 1.04 2.76 0.00
acceso_alcantarillado 9.81 0.84 2.50 2.96 0.11
tuberculosis 4.38 3.63 3.14 1.79 41.29

Matriz de correlaciones

La matriz de correlaciones mostró que varias variables presentan relaciones fuertes y positivas, lo que confirma la pertinencia de aplicar el ACP. Por ejemplo, los indicadores de ingreso, educación y esperanza de vida se correlacionan positivamente, mientras que algunas variables ambientales muestran correlaciones inversas con las económicas.

Varianza explicada por los componentes

Este gráfico representa la varianza explicada por cada componente principal, en orden descendente (del 1 al 10). La altura de cada barra indica el porcentaje de varianza total que explica ese componente.

Valores Propios y Varianza Explicada
Eigenvalue Varianza Explicada Varianza Acumulada
Dim.1 8.51 53.16 53.16
Dim.2 1.98 12.40 65.55
Dim.3 0.98 6.14 71.70
Dim.4 0.84 5.27 76.97
Dim.5 0.76 4.78 81.74
Dim.6 0.71 4.45 86.20
Dim.7 0.61 3.82 90.02
Dim.8 0.49 3.08 93.10
Dim.9 0.41 2.53 95.63
Dim.10 0.23 1.43 97.06
Dim.11 0.16 1.01 98.07
Dim.12 0.13 0.81 98.88
Dim.13 0.08 0.50 99.38
Dim.14 0.05 0.32 99.70
Dim.15 0.04 0.26 99.96
Dim.16 0.01 0.04 100.00

Los resultados muestran que los primeros dos componentes explican la mayor parte de la variabilidad total de los datos. En este caso, el Componente 1 explica 53,16% de la varianza total, mientras que el Componente 2 añade el 12,4%, acumulando en conjunto una explicación del modelo cerca del 65,55% de la información total. Esto significa que, con solo dos ejes, se conserva la mayor parte de la estructura original del conjunto de datos.

Interpretación de los componentes principales

Ahora para se describirán los 5 componentes principales del estudio

Componente 1: Desarrollo humano básico

El primer componente principal (PC1), que explica el 53.2 % de la varianza total, representa un eje fundamental del desarrollo humano. En un extremo, agrupa variables asociadas al bienestar, como acceso a servicios básicos, esperanza de vida y calidad institucional, mientras que en el otro extremo concentra indicadores de vulnerabilidad demográfica y sanitaria, tales como alta natalidad y mortalidad infantil. Este componente sintetiza la brecha estructural más relevante en el conjunto de datos: la que separa a los países con desarrollo humano consolidado de aquellos que aún enfrentan desafíos profundos en salud, infraestructura y gobernanza.

Componente 2: Inversión en salud pública y factores de mortalidad

El segundo componente principal (PC2) explica el 12.4 % de la varianza y refleja una dimensión de riesgo específico y presión contextual. Está definido principalmente por la tasa de suicidio, el gasto en salud y, en menor medida, la contaminación ambiental. Este eje pone de manifiesto desafíos de bienestar que no dependen únicamente del nivel general de desarrollo, sino de factores sociales, psicológicos y ambientales particulares.

Componente 3: Presión demográfica

El tercer componente principal (PC3), con un 6.1 % de varianza explicada, está dominado casi exclusivamente por la densidad poblacional. Este hallazgo revela que la presión demográfica sobre el territorio constituye una dimensión autónoma del desarrollo, prácticamente independiente de los niveles de ingreso, infraestructura o calidad institucional. Países con alta concentración poblacional quedan claramente identificados en esta dimensión.

Componente 4: Políticas de inversión en Salud

El cuarto componente principal (PC4) aporta el 5.3 % de la varianza total y se asocia con la inversión y la capacidad institucional del Estado. Sus principales contribuyentes son el gasto en salud, el control de la corrupción y la efectividad gubernamental. Este componente refleja la intención y la capacidad de los países por construir sistemas públicos robustos, más allá de los resultados ya alcanzados en bienestar.

Componente 5: Riesgo y infantil

El quinto componente principal (PC5) explica el 4.9 % de la varianza total y se asocia principalmente con variables demográficas residuales y cobertura de inmunización. Sus mayores contribuyentes son la tasa de mortalidad infantil, la inmunización y, en menor medida, el acceso a agua potable. Este componente refleja matices específicos del ciclo de vida temprano ,particularmente la efectividad de los sistemas de salud preventiva en la primera infancia, que no quedan completamente capturados por las dimensiones más amplias de desarrollo humano o gobernanza. Aunque su contribución marginal es modesta, PC5 ayuda a diferenciar países con niveles similares de desarrollo general pero con desempeños contrastantes en atención materno-infantil y cobertura vacunal.

Determinar el Número Adecuado de Clusters

El número de clusters fue determinado de forma exploratoria y visual, a partir de la observación de los mapas generados al variar el número de grupos (k = 2, 3, 4 y 5). Se optó por k = 3 porque esta configuración produjo una segmentación geográfica y temáticamente coherente, con grupos compactos, bien diferenciados y alineados con los patrones conocidos de desarrollo global.

## character(0)

Como se observa en el mapa con k = 2 existe un desbalance entre la cantidad de paises que conforman ambos grupos. En contraste como se puede observar con k = 4, aparece un cuarto cluster con pocos países y sin un patrón estructural claro, lo que introduce ruido sin aportar valor interpretativo. En conclusión se escoge k = 3, que equilibra la distribución de los paises entre los Clusters.

## character(0)

Con k = 3 se indica que tres grupos capturan la estructura subyacente de los datos sin sobresegmentar. Además, los tres clusters resultantes son fácilmente interpretables en términos de desarrollo humano, gobernanza y acceso a servicios básicos, lo que refuerza su validez sustantiva

Aplicar Clusterización Jerárquica (Método de Ward)

Antes de aplicar la clusterización, para seleccionar la cantidad de Clusters, se analizó

Ahora aplicamos el método de Ward usando K=3.

Caracterizar los Clusters Obtenidos

Calculamos las medias de las variables originales para entender el perfil de los 3 clusters.

Caracterización de los tres clusters obtenidos mediante ACP + Ward
Cluster Características principales Perfil interpretado Ejemplos representativos
1 Alta mortalidad (infantil y general) Baja escolaridad y acceso limitado a servicios básicos Débil gobernanza y altos niveles de corrupción |Países en desarrollo con alta vulnerabilida |Afganistán, Somalia, Sudán del Sur, República Centroafrican
2 Alta esperanza de vida Acceso universal a agua, saneamiento, electricidad y salud Baja corrupción y alta efectividad gubernamental |Países desarrollados |Noruega, Canadá, Suiza, Singapur
3 Nivel intermedio de indicadores sociales y económicos En transición demográfica (baja natalidad, baja mortalidad infantil) Inversión creciente en salud y gobernanz |Países emergentes |Brasil, México, Tailandia, Chile
Medias de las variables originales
Cluster gasto_salud inmunizacion cocina_limpia tasa_nacimiento tasa_mortalidad polucion densidad_pob expectativa_vida tasa_motalidad_inf tasa_suicidio control_corrupcion tasa_fertilidad_fem efectividad_gobierno acceso_acueducto acceso_alcantarillado tuberculosis
1 5.15 79.05 24.12 31.33 7.95 35.81 108.91 63.60 43.25 8.88 -0.71 4.12 -0.87 69.86 43.32 239.84
2 5.60 92.91 84.81 17.86 5.79 27.41 182.50 74.36 14.99 5.25 -0.36 2.22 -0.16 95.24 89.51 55.52
3 8.53 93.47 96.43 10.70 9.98 13.95 113.16 79.34 4.19 13.29 0.86 1.62 0.89 98.55 96.88 18.58

Visualización Final de Clusters en el Plano ACP

Finalmente, visualizamos los 2 clusters en el mapa del ACP.

Si para la variable “Ingreso”, el Cluster 1 tiene una caja mucho más alta que el Cluster 2, significa que el Cluster 1 agrupa a los países de mayor ingreso.

Si para “Emisiones CO2”, el Cluster 2 es más alto, ese cluster agrupa a los países con mayores emisiones.

Conclusiones

El análisis de aprendizaje no supervisado —usando Análisis de Componentes Principales (ACP) y una clusterización jerárquica con el método de Ward— permitió dividir de forma clara y consistente a 165 países en tres grupos diferentes. Estos grupos no solo reflejan niveles de desarrollo económico, sino también diferencias en sus instituciones, acceso a servicios básicos y calidad del gobierno. Este tipo de análisis multivariado ayuda a ver el desarrollo de manera más completa, y no solo por uno o dos indicadores aislados.

El primer cluster reúne a los países más vulnerables del mundo. Sus principales características son: alta mortalidad infantil, baja esperanza de vida, poco acceso a electricidad y saneamiento, y una institucionalidad muy débil (por ejemplo, poca efectividad del gobierno y altos niveles de corrupción). Entre ellos están Afganistán, Somalia, Sudán del Sur y la República Centroafricana. En estos países, la fragilidad del Estado dificulta mejoras sostenidas en salud, educación y bienestar. Esto muestra que la pobreza extrema no depende solo del ingreso económico, sino también de la falta de instituciones que funcionen bien.

El segundo cluster agrupa a países en un nivel de desarrollo medio, que ya han avanzado en temas como salud y servicios básicos, pero que aún enfrentan retos importantes. Aquí se encuentran países como Brasil, México, Tailandia, Colombia y Turquía. Tienen una esperanza de vida alrededor de 75 años, un acceso moderado a saneamiento y electricidad, y niveles intermedios de corrupción. Este grupo es importante porque está en un punto de transición: si mejora su gobernanza y reduce desigualdades, podría avanzar al siguiente nivel de desarrollo.

El tercer cluster corresponde a los países con el nivel más alto de desarrollo humano e institucional. Incluye países como Noruega, Canadá, Suiza, Finlandia, Alemania y Japón. Estos países destacan por tener esperanza de vida superior a 80 años, acceso universal a servicios básicos, altos niveles de transparencia y gobiernos muy efectivos. Algo importante es que estos países no solo se caracterizan por ser ricos, sino por usar sus recursos de manera eficiente para mejorar la calidad de vida de la población.

Un resultado muy importante del análisis es que la gobernanza es la variable que más diferencia a los países. Factores como el control de la corrupción y la efectividad del gobierno tienen gran peso en el primer componente del ACP, y son claves para separar los clusters. Esto indica que el desarrollo no depende solo de los recursos naturales o del tamaño de la economía, sino de qué tan bien funcionan las instituciones.

Otro hallazgo interesante es que la geografía no define los clusters. Países vecinos pueden aparecer en grupos completamente diferentes. Por ejemplo, Estados Unidos queda en el cluster 2, mientras que México aparece en el cluster 3. Esto demuestra que las decisiones políticas, la calidad del gobierno y la inversión en capital humano influyen más que la ubicación en el mapa.

Finalmente, este tipo de análisis tiene aplicaciones útiles en cooperación internacional y diseño de políticas públicas. Conocer los grupos ayuda a decidir qué tipo de apoyo necesita cada país: ayuda humanitaria y apoyo para construir instituciones en el cluster 1, fortalecimiento institucional en el cluster 2, o alianzas estratégicas e innovación en el cluster 3.

En conclusión, el ACP combinado con el método de Ward no solo divide países en grupos, sino que ayuda a entender las causas que los diferencian. El estudio muestra que el desarrollo humano es un fenómeno complejo donde la calidad de las instituciones y el acceso a servicios públicos son factores clave.

Bibliografía

Abdi, H., & Williams, L. J. (2010). Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics, 2(4), 433–459. https://doi.org/10.1002/wics.101

Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R (2nd ed.). Springer.

Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 374(2065), 20150202. https://doi.org/10.1098/rsta.2015.0202

Lê, S., Josse, J., & Husson, F. (2008). FactoMineR: An R package for multivariate analysis. Journal of Statistical Software, 25(1), 1–18. https://doi.org/10.18637/jss.v025.i01

Manly, B. F. J., & Navarro, A. (2020). Multivariate Statistical Methods: A Primer (5th ed.). Chapman & Hall/CRC.

Peña, D. (2002). Análisis de datos multivariantes. McGraw-Hill.