Informe de Construcción del Índice de Desarrollo Humano Propio

Decisiones Metodológicas, Efectos y Limitaciones — Análisis Multivariado

Author

Sergio Andrés Beltrán González

Published

May 28, 2026

1 Propósito de Este Informe

Este documento registra las decisiones metodológicas adoptadas para la construcción de un Índice de Desarrollo Humano Propio a partir de la base de datos IDH_Duty. No pretende ser un manual técnico del código, sino una bitácora de diseño metodológico que justifica la selección, exclusión y retención de variables, describe los efectos de estas decisiones sobre el ranking final e identifica las limitaciones inherentes al modelo propuesto.

Como soporte técnico y metodológico, el análisis completo con diagnósticos estadísticos, gráficos y tablas exhaustivas del documento de taller se encuentra publicado y accesible de forma interactiva en la plataforma RPubs: Taller de Construcción del IDH Propio (Soporte Técnico en RPubs). En este informe se presenta únicamente la síntesis argumentada de las decisiones finales.

2 Decisión 1 — Selección de Variables y Reducción Dimensional

2.1 El punto de partida: 6 variables

La base de datos original contiene seis indicadores socioeconómicos para cada país: Escolaridad, Esperanza de vida, PIB per cápita, Gini, Desempleo y Comercio Exterior. La fase inicial del análisis consistió en ejecutar un Análisis de Componentes Principales (PCA) exploratorio sobre las 6 variables para observar empíricamente sus agrupamientos y correlaciones.

2.2 Lo que reveló el PCA exploratorio

El PCA de 6 variables arrojó dos componentes principales con eigenvalue ≥ 1, que acumulan aproximadamente el 73% de la varianza total:

Ver código

eig_full <- pca_full$eig[1:2, ]
eig_df <- data.frame(
  Componente = c("CP1", "CP2"),
  Eigenvalue = round(eig_full[, 1], 3),
  Varianza   = paste0(round(eig_full[, 2], 1), "%"),
  Acumulada  = paste0(round(eig_full[, 3], 1), "%")
)

apa_table(eig_df,
          col.names = c("Componente", "Eigenvalue", "% Varianza", "% Acumulada"),
          caption   = "Varianza Explicada — PCA Exploratorio (6 Variables)",
          align     = c("l", "r", "r", "r"),
          nota      = "Criterio de Kaiser: retener componentes con eigenvalue ≥ 1.")

Varianza Explicada — PCA Exploratorio (6 Variables)
Componente	Eigenvalue	% Varianza	% Acumulada
CP1	3.086	51.4%	51.4%
CP2	1.316	21.9%	73.4%
Nota. Criterio de Kaiser: retener componentes con eigenvalue ≥ 1.

2.3 Determinación: aislamiento del núcleo estructural del desarrollo

Decisión Metodológica

El diagnóstico dimensional reveló una separación clara:

Dimensión 1 (CP1): Escolaridad, Esperanza, PIB y Gini cargan de forma masiva. Estas variables representan el núcleo estructural del desarrollo humano: capacidades cognitivas, longevidad, recursos materiales y equidad distributiva.
Dimensión 2 (CP2): Desempleo y Comercio Exterior presentan cargas dominantes en este componente. Se consideran variables de carácter coyuntural y volátil: el desempleo fluctúa según los ciclos económicos, y el comercio exterior responde a decisiones de política arancelaria o tratados comerciales.

Se decidió excluir Desempleo y Comercio Exterior del índice principal para evitar que factores coyunturales introdujeran ruido en el constructo teórico del desarrollo humano. No obstante, no se descartan en su totalidad: se recuperan en el modelo bidimensional (IDH PCA-2C) como una prueba de robustez y sensibilidad.

3 Decisión 2 — Arquitectura del Índice Propio

3.1 Fundamento para la no utilización de pesos equiponderados

El IDH oficial del PNUD asigna una ponderación de $1/3$ a cada dimensión. Aunque esta opción es simple, resulta metodológicamente arbitraria. Tras analizar la estructura empírica de los datos, se optó por definir pesos teóricos específicos que reflejen la jerarquía de capacidades propuesta por Amartya Sen:

Ver código

df_pesos <- data.frame(
  Dimensión      = c("Educación (I_Escol)", "Salud (I_Esp)", "Ingreso (I_PIB)", "Equidad (I_Gini)", "**Total**"),
  Peso           = c("0.35", "0.35", "0.20", "0.10", "**1.00**"),
  Justificación  = c(
    "Capital humano cognitivo — pilar central del enfoque de capacidades (Sen)",
    "Longevidad — condición sine qua non para ejercer cualquier otra libertad",
    "Recurso instrumental — facilita capacidades pero no es un fin en sí mismo",
    "Corrector de equidad — penaliza la falacia de los promedios nacionales",
    ""
  )
)

apa_table(df_pesos,
          col.names = c("Dimensión", "Peso (w)", "Justificación Metodológica"),
          caption   = "Ponderadores del IDH Propio — Justificación Teórica",
          align     = c("l", "c", "l"))

Ponderadores del IDH Propio — Justificación Teórica
Dimensión	Peso (w)	Justificación Metodológica
Educación (I_Escol)	0.35	Capital humano cognitivo — pilar central del enfoque de capacidades (Sen)
Salud (I_Esp)	0.35	Longevidad — condición sine qua non para ejercer cualquier otra libertad
Ingreso (I_PIB)	0.20	Recurso instrumental — facilita capacidades pero no es un fin en sí mismo
Equidad (I_Gini)	0.10	Corrector de equidad — penaliza la falacia de los promedios nacionales
Total	1.00

Fórmula del IDH Propio

\[IDH_{Propio} = 0.35 \cdot I_{Escol} + 0.35 \cdot I_{Esp} + 0.20 \cdot I_{PIB} + 0.10 \cdot I_{Gini}\]

Donde cada $I_k \in [0, 1]$ (normalización min-max) y $\sum w_k = 1$. El índice Gini se invierte ($I_{Gini} = 1 - \text{norm}(Gini)$) de modo que valores cercanos a 1 representen una mayor equidad.

3.2 Justificación de la ponderación conservadora del Gini (10%)

Se asignó al coeficiente de Gini un peso moderado del $10\%$ con base en tres criterios metodológicos:

Comparabilidad institucional: Dado que el IDH estándar del PNUD no incorpora la desigualdad directa en su estructura básica, un peso excesivo dificultaría la contrastación con la referencia internacional.
Efectos indirectos acumulados: Las brechas socioeconómicas y la desigualdad ya se reflejan parcialmente en los niveles promedio de Escolaridad y Esperanza de Vida, dado que los países más desiguales suelen registrar un menor acceso a estos servicios básicos.
Consistencia empírica del ordenamiento: Las simulaciones y pruebas de sensibilidad evidenciaron que asignaciones superiores al $15\%$ para el Gini generaban caídas desproporcionadas en países de ingresos medios-altos con altos índices de desigualdad histórica (como Brasil o Sudáfrica), lo cual restaba estabilidad e interpretabilidad al índice en términos de desarrollo humano global.

4 Ecuación del Índice PCA-1C (Línea Base)

El PCA refinado de 4 variables arroja los siguientes scoring coefficients para el primer componente:

Ver código

df_coefs <- data.frame(
  Variable    = c("Escolaridad", "Esperanza", "PIB (log)", "Gini"),
  Simbolo     = paste0("$Z_", 1:length(coefs), "$"),
  Coeficiente = coefs
)

apa_table(df_coefs,
          col.names = c("Variable estandarizada", "Símbolo", "Coeficiente $CP_1$"),
          caption   = "Scoring Coefficients — Primer Componente Principal (4 Variables Núcleo)",
          align     = c("l", "c", "r"),
          nota      = "Los coeficientes se obtienen dividiendo la coordenada (loading) de cada variable por la raíz cuadrada del eigenvalue del componente.")

Scoring Coefficients — Primer Componente Principal (4 Variables Núcleo)
Variable estandarizada	Símbolo	Coeficiente $CP_1$
Escolaridad	$Z_1$	0.5119
Esperanza	$Z_2$	0.5082
PIB (log)	$Z_3$	0.5317
Gini	$Z_4$	-0.4438
Nota. Los coeficientes se obtienen dividiendo la coordenada (loading) de cada variable por la raíz cuadrada del eigenvalue del componente.

Combinación Lineal y Normalización del IDH PCA-1C

La fórmula del $CP_1$ en variables estandarizadas $Z_k = (x_k - \bar{x}_k)/s_k$:

\[CP_1 \;=\; 0.5119 Z_1 \;+\; 0.5082 Z_2 \;+\; 0.5317 Z_3 \;+\; -0.4438 Z_4\]

$Z_4$ (Gini) tiene coeficiente negativo: a mayor desigualdad, menor puntuación de desarrollo. La normalización al intervalo $[0, 1]$:

\[IDH_{PCA\text{-}1C} = \frac{CP_1 - \min(CP_1)}{\max(CP_1) - \min(CP_1)}\]

5 Análisis de Robustez — Los Cuatro Escenarios

5.1 Comparación de Rankings

Ver código

rank_display <- IDH_rank[, c("Rank", "Country", "Agr", "IDH_PCA_1C", "IDH_PCA_2C", "IDH_Propio", "IDH_Oficial_PNUD")]
rank_display[, 4:7] <- round(rank_display[, 4:7], 3)

apa_table(rank_display,
          col.names = c("Rank", "País", "Región", "IDH PCA-1C", "IDH PCA-2C", "IDH Propio", "IDH Oficial PNUD"),
          caption   = "Ranking Completo de Países — Los Cuatro Modelos (Ordenado por IDH PCA-1C)",
          align     = c("c", "l", "l", "r", "r", "r", "r"),
          nota      = "Línea base: IDH PCA-1C (CP1 de 4 variables). Las discrepancias entre el IDH PCA-1C y el IDH PCA-2C revelan el impacto de incluir Desempleo y Comercio Exterior en la ordenación.")

Ranking Completo de Países — Los Cuatro Modelos (Ordenado por IDH PCA-1C)
Rank	País	Región	IDH PCA-1C	IDH PCA-2C	IDH Propio	IDH Oficial PNUD
1	Belgium	Euro	1.000	0.765	0.953	0.947
2	Germany	Euro	0.876	0.684	0.837	0.855
3	Austria	Euro	0.875	0.682	0.819	0.830
4	Spain	Euro	0.845	0.809	0.872	0.887
5	United Kingdom	Euro	0.823	0.681	0.833	0.855
6	France	Euro	0.822	0.714	0.806	0.818
7	Canada	North	0.821	0.690	0.815	0.836
8	Italy	Euro	0.792	0.726	0.816	0.839
9	Greece	Euro	0.784	0.799	0.841	0.844
10	United States	North	0.758	0.651	0.742	0.805
11	Portugal	Euro	0.758	0.646	0.798	0.806
12	Hungary	Euro	0.643	0.473	0.670	0.669
13	Uruguay	South	0.575	0.579	0.684	0.697
14	Chile	South	0.574	0.563	0.702	0.737
15	Argentina	South	0.572	0.599	0.690	0.712
16	Costa Rica	North	0.497	0.562	0.653	0.694
17	Peru	South	0.431	0.414	0.561	0.572
18	Panama	North	0.413	0.386	0.545	0.615
19	Mexico	North	0.400	0.377	0.539	0.578
20	Ecuador	South	0.393	0.400	0.537	0.555
21	Colombia	South	0.359	0.451	0.531	0.577
22	Brazil	South	0.333	0.473	0.527	0.586
23	Venezuela (Bolivarian Republic of)	South	0.312	0.359	0.395	0.370
24	Bolivia (Plurinational State of)	South	0.301	0.307	0.423	0.424
25	El Salvador	North	0.285	0.275	0.381	0.370
26	Paraguay	South	0.281	0.305	0.426	0.455
27	Nicaragua	North	0.240	0.284	0.369	0.368
28	Guatemala	North	0.183	0.219	0.332	0.359
29	Honduras	North	0.128	0.192	0.285	0.310
30	Haiti	North	0.000	0.160	0.048	0.000
Nota. Línea base: IDH PCA-1C (CP1 de 4 variables). Las discrepancias entre el IDH PCA-1C y el IDH PCA-2C revelan el impacto de incluir Desempleo y Comercio Exterior en la ordenación.

6 Diferencias Metodológicas con el IDH Oficial

Ver código

df_dif <- data.frame(
  Aspecto   = c("Variables núcleo",
                "Ponderación",
                "Equidad distributiva",
                "Dimensiones laborales/comerciales",
                "Enfoque epistemológico",
                "Sensibilidad muestral"),
  Oficial   = c("3 (Educación, Salud, Ingreso)",
                "Equiponderada (1/3 por dimensión)",
                "No considerada — ignora asimetrías internas",
                "Excluidas del modelo",
                "Normativo-teórico (pesos fijos por convención)",
                "Baja — pesos invariantes ante la muestra"),
  Propuesto = c("4 (Educación, Salud, Ingreso + Gini)",
                "Empírica (PCA-1C) o Teórica (Propio)",
                "Incorporada — penaliza Gini alto como factor de ajuste",
                "Excluidas del modelo (Desempleo y Comercio Exterior)",
                "Data-driven (pesos derivados de la estructura del CP1)",
                "Alta (PCA-1C) — pesos cambian con la muestra, o nula (Propio)")
)

apa_table(df_dif,
          col.names = c("Aspecto Comparativo", "IDH Oficial (PNUD)", "IDH Propuesto"),
          caption   = "Diferencias Metodológicas: IDH Oficial vs. Modelo Propuesto",
          align     = c("l", "l", "l"))

Diferencias Metodológicas: IDH Oficial vs. Modelo Propuesto
Aspecto Comparativo	IDH Oficial (PNUD)	IDH Propuesto
Variables núcleo	3 (Educación, Salud, Ingreso)	4 (Educación, Salud, Ingreso + Gini)
Ponderación	Equiponderada (1/3 por dimensión)	Empírica (PCA-1C) o Teórica (Propio)
Equidad distributiva	No considerada — ignora asimetrías internas	Incorporada — penaliza Gini alto como factor de ajuste
Dimensiones laborales/comerciales	Excluidas del modelo	Excluidas del modelo (Desempleo y Comercio Exterior)
Enfoque epistemológico	Normativo-teórico (pesos fijos por convención)	Data-driven (pesos derivados de la estructura del CP1)
Sensibilidad muestral	Baja — pesos invariantes ante la muestra	Alta (PCA-1C) — pesos cambian con la muestra, o nula (Propio)

7 Limitaciones del Análisis

Limitaciones Identificadas

Dependencia muestral: Los coeficientes de puntuación del PCA dependen directamente de la muestra analizada. La adición o exclusión de países puede modificar la magnitud y signo de las ponderaciones. En contraste, el IDH estándar del PNUD carece de esta variabilidad debido al uso de pesos fijos normativos.
Sensibilidad a valores atípicos (outliers): El método de normalización min-max recurre a los valores extremos como puntos de anclaje. La presencia de una sola observación extrema en PIB o desigualdad puede reducir artificialmente la variabilidad y comprimir los índices de los demás países. Procedimientos alternativos, como la estandarización z-score o la winsorización al percentil 5-95, contribuirían a suavizar este fenómeno.
Restricción de linealidad: El PCA asume relaciones de tipo lineal entre las variables de estudio. Dado que la relación entre el PIB per cápita y el desarrollo humano suele modelarse de forma log-lineal (como realiza el PNUD mediante la transformación logarítmica del ingreso), el análisis multivariado sobre los datos originales podría presentar distorsiones en las cargas factoriales. En este estudio se aplica el logaritmo al PIB antes de normalizar, buscando atenuar este efecto.
Exclusión de las dimensiones de empleo e inserción internacional: Si bien la evidencia matemática respalda la exclusión de Desempleo y Comercio Exterior del núcleo del índice (debido a su asociación casi exclusiva con el $CP_2$), ambas variables capturan elementos relevantes del bienestar social y económico que se omiten en la versión parsimoniosa. A pesar de que el modelo PCA-2C soluciona en parte esta deficiencia, lo hace a costa de incorporar mayor complejidad interpretativa.
Naturaleza heurística de los pesos teóricos: La estructura de ponderaciones establecida para el IDH Propio ($35\%$, $35\%$, $20\%$ y $10\%$) se fundamenta en consideraciones teóricas pero conserva un carácter discrecional. Asignaciones distintas (como incrementar el peso de la desigualdad al $25\%$) derivarían en reordenamientos significativos del ranking para economías en desarrollo o de ingresos medios.
Carácter estático del análisis: El estudio presenta una perspectiva de corte transversal (un solo período de tiempo). Por consiguiente, no se capturan dinámicas de evolución temporal, tendencias de mejora progresiva o procesos de deterioro del bienestar de los países.

8 Síntesis de Resultados

Consistencia del constructo: La correlación calculada entre el IDH Propio (teórico) y el IDH PCA-1C (empírico) se ubica en r = 0.977, lo que confirma que las ponderaciones teóricas asignadas de forma manual presentan una elevada congruencia con las cargas estimadas empíricamente. Por su parte, la correlación de r = 0.966 con el modelo bidimensional (PCA-2C) verifica que el empleo del segundo componente añade matices específicos pero no reestructura radicalmente la ordenación de los países.

Impacto en la ordenación: La incorporación del índice de Gini como factor de penalización constituye la diferencia metodológica más relevante respecto al IDH oficial del PNUD (registrándose una correlación de r = 0.957). La penalización de la asimetría interna provoca el descenso de países con altos niveles de ingresos pero marcada desigualdad, atenuando las distorsiones inherentes a los promedios agregados.

Resultados del ranking: Entre los 30 países examinados, Belgium se posiciona consistentemente a la cabeza de los cuatro modelos analizados, mientras que Haiti se sitúa de forma reiterada en la última posición.

Recomendación metodológica: El IDH PCA-1C (4 variables estructuradas en 1 componente) se consolida como la alternativa empírica de mayor solidez debido a su parsimonia y validez de constructo. El IDH Propio provee un marco interpretable directamente respaldado por referentes teóricos. El modelo bidimensional PCA-2C se propone únicamente como prueba de sensibilidad, dada la complejidad conceptual y matemática que conlleva la interpretación directa de un índice de carácter multidimensional.

Análisis desarrollado para la Universidad Surcolombiana (USCO) — Especialización en Estadística. Soporte Técnico y Código Fuente en RPubs: Taller de Construcción del IDH Propio Herramienta: R R version 4.5.3 (2026-03-11 ucrt)