El Análisis de Componentes Principales (ACP) es una técnica estadística multivariante cuyo propósito es reducir la dimensionalidad de los datos y facilitar su interpretación, manteniendo la mayor cantidad posible de variabilidad original (Jolliffe & Cadima, 2016). A través de la transformación lineal de las variables originales en un nuevo conjunto de componentes no correlacionados, el ACP permite identificar patrones y estructuras subyacentes en la información (Abdi & Williams, 2010).
En el ámbito de las ciencias sociales y económicas, esta metodología ha demostrado ser una herramienta fundamental para explorar relaciones complejas entre indicadores y construir tipologías o clasificaciones basadas en múltiples dimensiones (Hair et al., 2019). Según Peña (2002), el ACP posibilita representar gráficamente la información de manera más comprensible, facilitando la identificación de grupos o comportamientos similares entre observaciones.
El problema central del trabajo es identificar patrones de desarrollo entre países usando datos del Banco Mundial. Dada la gran cantidad de indicadores sociales y ambientales disponibles, se busca reducir la complejidad de la información y agrupar a los países según sus similitudes.
identificar patrones de desarrollo, gobernanza, infraestrucura y bienestar El análisis pretende responder qué variables explican mejor las diferencias entre naciones, cuántas dimensiones concentran la mayor parte de la información y qué grupos de países comparten características comunes.
La metodología del trabajo se desarrolló en seis etapas principales. Primero, se seleccionó una base de datos del Banco Mundial, filtrando únicamente países y eligiendo el año 2018 para contar con información reciente y comparable. Se escogieron diecisiete variables cuantitativas relacionadas con economía, educación, salud, medio ambiente y demografía, priorizando su relevancia y disponibilidad. Los datos fueron estandarizados para garantizar comparabilidad entre indicadores con diferentes escalas.
Luego, se realizó un análisis descriptivo para conocer el comportamiento de las variables mediante estadísticas básicas (promedio, mediana, desviación estándar) y gráficos que facilitaron la identificación de patrones iniciales y posibles valores atípicos.
Posteriormente, se aplicó un Análisis de Componentes Principales (ACP) con el fin de reducir la dimensionalidad de los datos y concentrar la mayor parte de la información en pocos componentes. Se analizó la matriz de correlaciones, la varianza explicada y se interpretaron los primeros componentes, que reflejaron factores asociados al desarrollo económico y social de los países.
Con los resultados del ACP, se realizó una clusterización jerárquica mediante el método de Ward, agrupando a los países según su similitud en los componentes principales. Se determinaron cinco clusters, los cuales fueron caracterizados de acuerdo con sus niveles de desarrollo y condiciones estructurales.
Finalmente, se interpretaron los resultados identificando qué componentes explican mayor variabilidad y qué patrones globales emergen. Este proceso permitió evidenciar diferencias claras entre grupos de países y destacar cómo el ACP y la clusterización pueden ser útiles para analizar desigualdades y apoyar la formulación de políticas internacionales.
La base de datos utilizada proviene del Banco Mundial, una fuente reconocida por su cobertura global y la disponibilidad de indicadores económicos, sociales y ambientales actualizados. Se seleccionó el año 2018 para contar con información reciente y comparable entre países.
Del conjunto total de datos, se filtraron únicamente las observaciones correspondientes a países individuales, excluyendo regiones o bloques económicos. Posteriormente, se eligieron 17 variables cuantitativas que reflejan distintos aspectos del desarrollo, como la esperanza de vida, el acceso a educación, etc.
| Variable | Nombre en la base | Descripción | Unidad |
|---|---|---|---|
| gasto_salud | Healthcare expenditure (% of GDP) | Gasto total en salud como porcentaje del PIB | % |
| inmunizacion | Immunization, DPT (% of children ages 12-23 months) | Proporción de niños inmunizados contra difteria, tétanos y tos ferina | % |
| cocina_limpia | Access to clean cooking fuels and technologies (% of population) | Acceso a tecnologías limpias para cocinar | % |
| tasa_nacimiento | Birth rate, crude (per 1,000 people) | Nacimientos por cada 1,000 habitantes | ‰ |
| tasa_mortalidad | Death rate, crude (per 1,000 people) | Muertes por cada 1,000 habitantes | ‰ |
| polucion | PM2.5 air pollution, mean annual exposure (µg/m³) | Exposición promedio anual a partículas finas | µg/m³ |
| densidad_pob | Population density (people per km²) | Habitantes por kilómetro cuadrado | hab/km² |
| expectativa_vida | Life expectancy at birth (years) | Esperanza de vida al nacer | años |
| tasa_motalidad_inf | Mortality rate, infant (per 1,000 live births) | Muertes de menores de 1 año por cada 1,000 nacidos vivos | ‰ |
| tasa_suicidio | Suicide mortality rate (per 100,000 population) | Tasa de mortalidad por suicidio | por 100,000 |
| control_corrupcion | Control of Corruption: Estimate | Índice de control de la corrupción (escala estandarizada) | Índice |
| tasa_fertilidad_fem | Fertility rate, total (births per woman) | Número promedio de hijos por mujer | hijos/mujer |
| efectividad_gobierno | Government Effectiveness: Estimate | Calidad de los servicios públicos y capacidad de implementación de políticas | Índice |
| acceso_acueducto | Access to electricity (% of population) | Acceso a electricidad | % |
| acceso_alcantarillado | Improved sanitation facilities (% of population with access) | Acceso a saneamiento mejorado | % |
| tuberculosis | Tuberculosis incidence (per 100,000 people) | Nuevos casos de tuberculosis por 100,000 habitantes | por 100,000 |
| pais | Country Name | Nombre del país | — |
En la siguiente tabla se puede visualizar las principales medidas de tendencia, dispersión y distribución de las 16 variables seleccionadas desde la base de datos del Banco Mundial. Organizar un poco
| vars | n | mean | sd | median | trimmed | mad | min | max | range | skew | kurtosis | se | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| gasto_salud | 1 | 159 | 6.21 | 2.67 | 5.93 | 6.02 | 2.69 | 1.76 | 16.62 | 14.86 | 0.77 | 0.54 | 0.21 |
| inmunizacion | 2 | 159 | 87.57 | 13.02 | 92.00 | 90.02 | 7.41 | 35.00 | 99.00 | 64.00 | -1.82 | 3.18 | 1.03 |
| cocina_limpia | 3 | 159 | 63.91 | 38.54 | 82.00 | 66.99 | 26.69 | 0.00 | 100.00 | 100.00 | -0.54 | -1.40 | 3.06 |
| tasa_nacimiento | 4 | 159 | 21.26 | 10.26 | 19.60 | 20.50 | 12.90 | 7.30 | 45.67 | 38.37 | 0.50 | -0.92 | 0.81 |
| tasa_mortalidad | 5 | 159 | 7.78 | 2.66 | 7.27 | 7.63 | 2.25 | 0.96 | 15.00 | 14.04 | 0.46 | 0.14 | 0.21 |
| polucion | 6 | 159 | 27.10 | 16.90 | 21.55 | 24.89 | 12.92 | 5.50 | 86.02 | 80.53 | 1.19 | 0.69 | 1.34 |
| densidad_pob | 7 | 159 | 134.59 | 214.21 | 78.03 | 93.73 | 79.12 | 2.06 | 1577.00 | 1574.94 | 4.63 | 25.72 | 16.99 |
| expectativa_vida | 8 | 159 | 71.44 | 7.84 | 72.00 | 71.84 | 8.72 | 51.91 | 83.75 | 31.85 | -0.40 | -0.63 | 0.62 |
| tasa_motalidad_inf | 9 | 159 | 23.27 | 20.47 | 15.20 | 20.61 | 17.20 | 1.90 | 91.80 | 89.90 | 1.00 | 0.24 | 1.62 |
| tasa_suicidio | 10 | 159 | 8.86 | 6.30 | 7.10 | 8.10 | 4.89 | 0.00 | 29.85 | 29.85 | 1.21 | 1.29 | 0.50 |
| control_corrupcion | 11 | 159 | -0.17 | 0.96 | -0.39 | -0.25 | 0.79 | -1.79 | 2.17 | 3.96 | 0.77 | -0.09 | 0.08 |
| tasa_fertilidad_fem | 12 | 159 | 2.81 | 1.37 | 2.38 | 2.65 | 1.24 | 1.23 | 6.71 | 5.48 | 0.91 | -0.09 | 0.11 |
| efectividad_gobierno | 13 | 159 | -0.16 | 0.95 | -0.30 | -0.19 | 0.83 | -2.32 | 2.01 | 4.33 | 0.32 | -0.36 | 0.08 |
| acceso_acueducto | 14 | 159 | 86.08 | 16.63 | 94.19 | 88.76 | 8.51 | 35.85 | 100.00 | 64.15 | -1.18 | 0.26 | 1.32 |
| acceso_alcantarillado | 15 | 159 | 73.20 | 28.77 | 86.70 | 76.68 | 18.40 | 8.35 | 100.00 | 91.65 | -0.81 | -0.83 | 2.28 |
| tuberculosis | 16 | 159 | 118.56 | 146.86 | 53.00 | 90.81 | 68.35 | 1.00 | 677.00 | 676.00 | 1.67 | 2.35 | 11.65 |
Colocar chunk de dimensionalidad, está matriz de correlación
El Análisis de Componentes Principales (ACP) se utilizó para reducir la cantidad de variables y resumir la información contenida en los distintos indicadores de los países. Este método transforma las variables originales —altamente correlacionadas— en un conjunto menor de componentes principales que conservan la mayor parte de la varianza total.
| Dim.1 | Dim.2 | Dim.3 | Dim.4 | Dim.5 | |
|---|---|---|---|---|---|
| gasto_salud | 2.20 | 11.80 | 6.84 | 7.78 | 6.31 |
| inmunizacion | 5.03 | 1.88 | 1.56 | 3.01 | 3.39 |
| cocina_limpia | 8.98 | 0.38 | 4.76 | 1.91 | 0.14 |
| tasa_nacimiento | 10.31 | 0.11 | 0.00 | 5.58 | 0.05 |
| tasa_mortalidad | 0.01 | 30.40 | 0.03 | 10.44 | 22.79 |
| polucion | 3.69 | 7.87 | 1.37 | 1.31 | 18.44 |
| densidad_pob | 0.21 | 6.08 | 73.41 | 11.12 | 2.59 |
| expectativa_vida | 10.50 | 1.37 | 0.00 | 0.54 | 0.03 |
| tasa_motalidad_inf | 10.13 | 0.80 | 0.47 | 0.23 | 0.62 |
| tasa_suicidio | 0.66 | 28.43 | 0.07 | 3.06 | 2.75 |
| control_corrupcion | 6.32 | 3.60 | 3.29 | 27.44 | 0.00 |
| tasa_fertilidad_fem | 9.86 | 0.00 | 0.00 | 7.04 | 1.36 |
| efectividad_gobierno | 8.49 | 1.32 | 1.52 | 13.03 | 0.12 |
| acceso_acueducto | 9.43 | 1.48 | 1.04 | 2.76 | 0.00 |
| acceso_alcantarillado | 9.81 | 0.84 | 2.50 | 2.96 | 0.11 |
| tuberculosis | 4.38 | 3.63 | 3.14 | 1.79 | 41.29 |
La matriz de correlaciones mostró que varias variables presentan relaciones fuertes y positivas, lo que confirma la pertinencia de aplicar el ACP. Por ejemplo, los indicadores de ingreso, educación y esperanza de vida se correlacionan positivamente, mientras que algunas variables ambientales muestran correlaciones inversas con las económicas.
Este gráfico representa la varianza explicada por cada componente principal, en orden descendente (del 1 al 10). La altura de cada barra indica el porcentaje de varianza total que explica ese componente.
| Eigenvalue | Varianza Explicada | Varianza Acumulada | |
|---|---|---|---|
| Dim.1 | 8.51 | 53.16 | 53.16 |
| Dim.2 | 1.98 | 12.40 | 65.55 |
| Dim.3 | 0.98 | 6.14 | 71.70 |
| Dim.4 | 0.84 | 5.27 | 76.97 |
| Dim.5 | 0.76 | 4.78 | 81.74 |
| Dim.6 | 0.71 | 4.45 | 86.20 |
| Dim.7 | 0.61 | 3.82 | 90.02 |
| Dim.8 | 0.49 | 3.08 | 93.10 |
| Dim.9 | 0.41 | 2.53 | 95.63 |
| Dim.10 | 0.23 | 1.43 | 97.06 |
| Dim.11 | 0.16 | 1.01 | 98.07 |
| Dim.12 | 0.13 | 0.81 | 98.88 |
| Dim.13 | 0.08 | 0.50 | 99.38 |
| Dim.14 | 0.05 | 0.32 | 99.70 |
| Dim.15 | 0.04 | 0.26 | 99.96 |
| Dim.16 | 0.01 | 0.04 | 100.00 |
Los resultados muestran que los primeros dos componentes explican la mayor parte de la variabilidad total de los datos. En este caso, el Componente 1 explica 53,16% de la varianza total, mientras que el Componente 2 añade el 12,4%, acumulando en conjunto una explicación del modelo cerca del 65,55% de la información total. Esto significa que, con solo dos ejes, se conserva la mayor parte de la estructura original del conjunto de datos.
Ahora para se describirán los 5 componentes principales del estudio
El primer componente principal (PC1), que explica el 53.2 % de la varianza total, representa un eje fundamental del desarrollo humano. En un extremo, agrupa variables asociadas al bienestar, como acceso a servicios básicos, esperanza de vida y calidad institucional, mientras que en el otro extremo concentra indicadores de vulnerabilidad demográfica y sanitaria, tales como alta natalidad y mortalidad infantil. Este componente sintetiza la brecha estructural más relevante en el conjunto de datos: la que separa a los países con desarrollo humano consolidado de aquellos que aún enfrentan desafíos profundos en salud, infraestructura y gobernanza.
El segundo componente principal (PC2) explica el 12.4 % de la varianza y refleja una dimensión de riesgo específico y presión contextual. Está definido principalmente por la tasa de suicidio, el gasto en salud y, en menor medida, la contaminación ambiental. Este eje pone de manifiesto desafíos de bienestar que no dependen únicamente del nivel general de desarrollo, sino de factores sociales, psicológicos y ambientales particulares.
El tercer componente principal (PC3), con un 6.1 % de varianza explicada, está dominado casi exclusivamente por la densidad poblacional. Este hallazgo revela que la presión demográfica sobre el territorio constituye una dimensión autónoma del desarrollo, prácticamente independiente de los niveles de ingreso, infraestructura o calidad institucional. Países con alta concentración poblacional quedan claramente identificados en esta dimensión.
El cuarto componente principal (PC4) aporta el 5.3 % de la varianza total y se asocia con la inversión y la capacidad institucional del Estado. Sus principales contribuyentes son el gasto en salud, el control de la corrupción y la efectividad gubernamental. Este componente refleja la intención y la capacidad de los países por construir sistemas públicos robustos, más allá de los resultados ya alcanzados en bienestar.
El quinto componente principal (PC5) explica el 4.9 % de la varianza total y se asocia principalmente con variables demográficas residuales y cobertura de inmunización. Sus mayores contribuyentes son la tasa de mortalidad infantil, la inmunización y, en menor medida, el acceso a agua potable. Este componente refleja matices específicos del ciclo de vida temprano ,particularmente la efectividad de los sistemas de salud preventiva en la primera infancia, que no quedan completamente capturados por las dimensiones más amplias de desarrollo humano o gobernanza. Aunque su contribución marginal es modesta, PC5 ayuda a diferenciar países con niveles similares de desarrollo general pero con desempeños contrastantes en atención materno-infantil y cobertura vacunal.
El número de clusters fue determinado de forma exploratoria y visual, a partir de la observación de los mapas generados al variar el número de grupos (k = 2, 3, 4 y 5). Se optó por k = 3 porque esta configuración produjo una segmentación geográfica y temáticamente coherente, con grupos compactos, bien diferenciados y alineados con los patrones conocidos de desarrollo global.
## character(0)
Como se observa en el mapa con k = 2 existe un desbalance entre la cantidad de paises que conforman ambos grupos. En contraste como se puede observar con k = 4, aparece un cuarto cluster con pocos países y sin un patrón estructural claro, lo que introduce ruido sin aportar valor interpretativo. En conclusión se escoge k = 3, que equilibra la distribución de los paises entre los Clusters.
## character(0)
Con k = 3 se indica que tres grupos capturan la estructura subyacente de los datos sin sobresegmentar. Además, los tres clusters resultantes son fácilmente interpretables en términos de desarrollo humano, gobernanza y acceso a servicios básicos, lo que refuerza su validez sustantiva
Antes de aplicar la clusterización, para seleccionar la cantidad de Clusters, se analizó
Ahora aplicamos el método de Ward usando K=3.
Calculamos las medias de las variables originales para entender el perfil de los 3 clusters.
| Cluster | Características principales | Perfil interpretado | Ejemplos representativos |
|---|---|---|---|
| 1 | Alta mortalidad (infantil y general) Baja escolaridad y acceso limitado a servicios básicos Débil gobernanza y altos niveles de corrupción | |Países en desarrollo con alta vulnerabilida | |Afganistán, Somalia, Sudán del Sur, República Centroafrican |
| 2 | Alta esperanza de vida Acceso universal a agua, saneamiento, electricidad y salud Baja corrupción y alta efectividad gubernamental | |Países desarrollados | |Noruega, Canadá, Suiza, Singapur |
| 3 | Nivel intermedio de indicadores sociales y económicos En transición demográfica (baja natalidad, baja mortalidad infantil) Inversión creciente en salud y gobernanz | |Países emergentes | |Brasil, México, Tailandia, Chile |
| Cluster | gasto_salud | inmunizacion | cocina_limpia | tasa_nacimiento | tasa_mortalidad | polucion | densidad_pob | expectativa_vida | tasa_motalidad_inf | tasa_suicidio | control_corrupcion | tasa_fertilidad_fem | efectividad_gobierno | acceso_acueducto | acceso_alcantarillado | tuberculosis |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 5.15 | 79.05 | 24.12 | 31.33 | 7.95 | 35.81 | 108.91 | 63.60 | 43.25 | 8.88 | -0.71 | 4.12 | -0.87 | 69.86 | 43.32 | 239.84 |
| 2 | 5.60 | 92.91 | 84.81 | 17.86 | 5.79 | 27.41 | 182.50 | 74.36 | 14.99 | 5.25 | -0.36 | 2.22 | -0.16 | 95.24 | 89.51 | 55.52 |
| 3 | 8.53 | 93.47 | 96.43 | 10.70 | 9.98 | 13.95 | 113.16 | 79.34 | 4.19 | 13.29 | 0.86 | 1.62 | 0.89 | 98.55 | 96.88 | 18.58 |
Finalmente, visualizamos los 2 clusters en el mapa del ACP.
Si para la variable “Ingreso”, el Cluster 1 tiene una caja mucho más alta que el Cluster 2, significa que el Cluster 1 agrupa a los países de mayor ingreso.
Si para “Emisiones CO2”, el Cluster 2 es más alto, ese cluster agrupa a los países con mayores emisiones.
El análisis de aprendizaje no supervisado —usando Análisis de Componentes Principales (ACP) y una clusterización jerárquica con el método de Ward— permitió dividir de forma clara y consistente a 165 países en tres grupos diferentes. Estos grupos no solo reflejan niveles de desarrollo económico, sino también diferencias en sus instituciones, acceso a servicios básicos y calidad del gobierno. Este tipo de análisis multivariado ayuda a ver el desarrollo de manera más completa, y no solo por uno o dos indicadores aislados.
El primer cluster reúne a los países más vulnerables del mundo. Sus principales características son: alta mortalidad infantil, baja esperanza de vida, poco acceso a electricidad y saneamiento, y una institucionalidad muy débil (por ejemplo, poca efectividad del gobierno y altos niveles de corrupción). Entre ellos están Afganistán, Somalia, Sudán del Sur y la República Centroafricana. En estos países, la fragilidad del Estado dificulta mejoras sostenidas en salud, educación y bienestar. Esto muestra que la pobreza extrema no depende solo del ingreso económico, sino también de la falta de instituciones que funcionen bien.
El segundo cluster agrupa a países en un nivel de desarrollo medio, que ya han avanzado en temas como salud y servicios básicos, pero que aún enfrentan retos importantes. Aquí se encuentran países como Brasil, México, Tailandia, Colombia y Turquía. Tienen una esperanza de vida alrededor de 75 años, un acceso moderado a saneamiento y electricidad, y niveles intermedios de corrupción. Este grupo es importante porque está en un punto de transición: si mejora su gobernanza y reduce desigualdades, podría avanzar al siguiente nivel de desarrollo.
El tercer cluster corresponde a los países con el nivel más alto de desarrollo humano e institucional. Incluye países como Noruega, Canadá, Suiza, Finlandia, Alemania y Japón. Estos países destacan por tener esperanza de vida superior a 80 años, acceso universal a servicios básicos, altos niveles de transparencia y gobiernos muy efectivos. Algo importante es que estos países no solo se caracterizan por ser ricos, sino por usar sus recursos de manera eficiente para mejorar la calidad de vida de la población.
Un resultado muy importante del análisis es que la gobernanza es la variable que más diferencia a los países. Factores como el control de la corrupción y la efectividad del gobierno tienen gran peso en el primer componente del ACP, y son claves para separar los clusters. Esto indica que el desarrollo no depende solo de los recursos naturales o del tamaño de la economía, sino de qué tan bien funcionan las instituciones.
Otro hallazgo interesante es que la geografía no define los clusters. Países vecinos pueden aparecer en grupos completamente diferentes. Por ejemplo, Estados Unidos queda en el cluster 2, mientras que México aparece en el cluster 3. Esto demuestra que las decisiones políticas, la calidad del gobierno y la inversión en capital humano influyen más que la ubicación en el mapa.
Finalmente, este tipo de análisis tiene aplicaciones útiles en cooperación internacional y diseño de políticas públicas. Conocer los grupos ayuda a decidir qué tipo de apoyo necesita cada país: ayuda humanitaria y apoyo para construir instituciones en el cluster 1, fortalecimiento institucional en el cluster 2, o alianzas estratégicas e innovación en el cluster 3.
En conclusión, el ACP combinado con el método de Ward no solo divide países en grupos, sino que ayuda a entender las causas que los diferencian. El estudio muestra que el desarrollo humano es un fenómeno complejo donde la calidad de las instituciones y el acceso a servicios públicos son factores clave.
Abdi, H., & Williams, L. J. (2010). Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics, 2(4), 433–459. https://doi.org/10.1002/wics.101
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2019). Multivariate Data Analysis (8th ed.). Cengage Learning.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R (2nd ed.). Springer.
Jolliffe, I. T., & Cadima, J. (2016). Principal component analysis: A review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 374(2065), 20150202. https://doi.org/10.1098/rsta.2015.0202
Lê, S., Josse, J., & Husson, F. (2008). FactoMineR: An R package for multivariate analysis. Journal of Statistical Software, 25(1), 1–18. https://doi.org/10.18637/jss.v025.i01
Manly, B. F. J., & Navarro, A. (2020). Multivariate Statistical Methods: A Primer (5th ed.). Chapman & Hall/CRC.
Peña, D. (2002). Análisis de datos multivariantes. McGraw-Hill.