Análisis del Índice de Desarrollo Humano (IDH) a través de un Modelo Lineal Múltiple

Introducción

El Índice de Desarrollo Humano (IDH) es una forma de medir la calidad de vida de la población de un país, teniendo en cuenta factores como la salud, la educación y los ingresos, este índice se mide con valores entre 0 y 1, donde los valores más cercanos a 1 indican un mayor nivel de desarrollo humano en el país. El IDH nos da una vista más amplia y humana sobre el desarrollo de una sociedad.

Este estudio tiene como objetivo principal conocer cuáles de los siguientes indicadores genera un mayor impacto al Índice de Desarrollo Humano, y cómo se relacionan entre sí utilizando el modelo de regresión lineal múltiple, así como otras herramientas estadísticas descriptivas para analizar cómo las distintas variables socioeconómicas repercuten en el IDH global del año 2021. En particular, se toman indicadores como:

Cuantitativos:

  • Porcentaje de la población con acceso a salud
  • Gasto en salud per cápita
  • Esperanza de vida
  • Porcentaje de la población con acceso a electricidad
  • Índice de desarrollo humano

Categóricos:

  • Producto interno bruto (PIB)
  • Región geográfica (continente)

Metodología

A continuación, se describe la implementación del análisis de regresión lineal múltiple aplicado al estudio del Índice de Desarrollo Humano (IDH), para analizar lo descrito en la fase introductoria y evidenciando cuáles son más relevantes.

Inicialmente, recolectamos información por medio de bases de datos tomadas del sitio web Our World in Data como:

(Todos los datos pertenecen al año 2021)

Se cargaron y fusionaron con la función inner_join( ) utilizando la variable “País”, en conjunto con la categorización de región geográfica (continentes). Posteriormente, se clasificó el PIB en tres categorías: Bajo, Medio y Alto, haciendo uso de la función cut( ) en “BaseDatos$PIB”.

Una vez preparada la base, se aplicó un modelo de regresión lineal múltiple, en el cual el IDH fue la variable dependiente. Las variables independientes incluyeron el acceso a servicios de salud, gasto en salud, PIB, acceso a electricidad y esperanza de vida. La ecuación general de del modelo es:

IDH = β0 + β1(AccesoSalud) + β2(GastoSalud) + β3 (AccesoElectricidad) + β4(EsperanzaVida) + ε

Donde:

  • β0 es el intercepto
  • β1 a β4 indican el efecto de cada variable sobre el IDH
  • ε es el error o residuo

Para la validación del modelo se hizo la evaluación de los siguientes supuestos:

  • Normalidad, prueba (Shapiro-Wilk)
  • Homocedasticidad (varianza constante), prueba (Breusch-Pagan)
  • Multicolinealidad, a traves del VIF (Variance Inflation Factor)

Adicionalmente, se crearon gráficos para ver y analizar la relación entre el IDH y las variables, como; gráficos de dispersión usando ggplot2 y ggplotly para observar la linealidad entre las variables, y un gráfico tipo radar para representar las correlaciones entre el IDH y las variables explicativas, esto permite identificar visualmente su relevancia.

Descriptivas análiticas

En un inicio se tomaron los datos de 193 países de la base de datos principal, luego de fusionar las diferentes bases de datos, se optó por eliminar los países que no presentaban información en alguna de las variables con el objetivo de que fueran representativos e influyentes al ser una cantidad de países muy grande. Obteniendo como resultado una base de datos de 64 países con información completa.

Las variables que comprenden esta información fueron sintetizadas en la siguiente tabla:

Variables cuantitativas

En cuanto las variables cuantitativas a continuación, se muestran las principales características de estas variables en términos de medidas de tendencia central y la descripción de su comportamiento general. Adicionalmente, cada una de ellas cuenta con un respectivo diagrama de cajas que permite identificar cómo se distribuyen estas variables (cada una con su respectiva categoría) en diferentes países, visualizando su valor central, los cuartiles y posibles valores atípicos. Así, facilita una comprensión rápida de la desigualdad o equidad.

IDH (Variable Dependiente)

El Índice de Desarrollo Humano (IDH) es un indicador compuesto que busca medir el nivel de desarrollo de un país de manera integral, considerando no solo aspectos económicos sino también sociales. Los valores del IDH oscilan entre 0 y 1, donde un valor más cercano a 1 refleja un mayor grado de desarrollo humano, mayores oportunidades y mejor calidad de vida para la población.

Esperanza de vida

La variable esperanza de vida es una estimación estadística que hace referencia al promedio de años que vivirán las personas que nacen en determinado año, asumiendo que las tasas de mortalidad actuales se mantendrán a lo largo de su vida. Con este se pueden evaluar el bienestar y cumplimiento de las políticas públicas del país.

Gasto en salud per cápita

Esta variable representa el gasto total en salud por persona, que incluye tanto el gasto público (financiado por el gobierno) como el gasto privado (realizado por individuos y empresas). Estos datos se expresan en dólares para facilitar la comparación en el costo de la vida entre países, pero no se ajustan para inflación. Un mayor gasto en salud no significa que las personas necesariamente estarán más sanas si los servicios de salud no son eficientes y de buena calidad.

Porcentaje de la población con acceso a electricidad

Esta variable mide el porcentaje de la población que tienen acceso a una fuente electricidad en cada país. Tener acceso a la electricidad se define en las estadísticas internacionales como tener una fuente de electricidad que puede proporcionar una iluminación esencial y cargar un teléfono o alimentar un radio durante al menos 4 horas al día. El acceso a la electricidad facilita muchos componentes claves para el bienestar general de la población.

Porcentaje de la población con acceso a salud

Hace referencia cuantas personas tienen acceso a la salud en el país. La cobertura de los servicios esenciales de salud se mide como un índice con escala de 0 a 100 medido en porcentaje (donde cuanto más alto, mejor). Este índice se basa en las tasas de mortalidad estandarizadas por riesgo; dan una medida del acceso y la calidad de la atención médica Esto da una idea de qué tan bien funciona el sistema de salud de un país, si la gente tiene acceso a servicios médicos cuando los necesita y si se aplican correctamente tratamientos comunes y efectivos (como antibióticos, cirugías básicas, vacunas, etc.).

Tabla: Medidas de tendencia central

A continuación se muestran en una tabla las medidas de tendencia central de cada una de las variables cuantitativas: Media, Mediana, Moda y percentiles

Cabe señalar que, para facilitar la presentación de la información, la nomenclatura de las variables será sintetizada de la siguiente manera:

  • IDH = IDH
  • Esperanza de vida = EsperanzaVida
  • Gasto en salud per capita = GastoSalud
  • Porcentaje de la población con acceso a electricidad = AccesoElectricidad
  • Porcentaje de la población con acceso a la salud = AccesoSalud

La celda vacía significa que la moda no existe para esa variable. La ausencia de moda indica que no existe un valor con mayor frecuencia relativa, lo que sugiere una distribución equitativa entre las observaciones.

Variables categóricas

Continente

La variable Continente agrupa a los países según su ubicación geográfica, dividiéndolo en cinco categorías: África, América, Asia, Europa y Oceanía. Esta categorización tiene una gran relevancia estadística y práctica, ya que permite analizar si existen patrones diferenciados de desarrollo humano entre regiones del mundo.

PIB

El producto interno bruto (PIB) es una medida del valor agregado total de la producción de bienes y servicios en un país o región cada año. El PIB per cápita es el PIB dividido por la población. Estos datos se ajustan a la inflación y a las diferencias en el coste de la vida entre países. Esto permite clasificar a los países según su nivel de ingreso per cápita en tres grupos: bajo, medio y alto. Esta clasificación tiene como propósito analizar cómo varía el Índice de Desarrollo Humano (IDH) según el nivel de desarrollo económico.

Visualización Global del IDH y Factores Socioeconómicos

Relaciones lineales

El siguiente gráfico muestra cuatro diagramas de dispersión, cada uno representando la relación del IDH con una de las siguientes variables:

  • Porcentaje de la población con acceso a electricidad
  • Pocentaje de la población con acceso a la salud
  • Esperanza de Vida
  • Gasto en salud per capita

Interpretación

  • Se observa una tendencia positiva en todos los casos, lo que indica que a mayor IDH, tienden a aumentar estas variables.
  • Acceso a Electricidad presenta una agrupación cercana al 100%, lo que refleja que muchos países ya han alcanzado una cobertura casi total.
  • Acceso a Salud muestra una progresión lineal más marcada respecto al IDH.
  • Esperanza de Vida y Gasto en Salud también presentan patrones crecientes, aunque con una mayor dispersión, especialmente en el gasto.

Esto sugiere que los países con mayores niveles de desarrollo humano también tienden a tener mejores indicadores de salud y acceso a servicios esenciales.

Correlaciones

A continuación se presenta un gráfico que representa en forma de radar las correlaciones del IDH con las variables seleccionadas.

Observacione clave:

  • Todas las correlaciones están por encima de 0,75, lo que indica una relación positiva fuerte
  • El gráfico permite visualizar de forma clara que Acceso a salud y Esperanza de Vida tienen correlaciones más elevadas con el IDH.

La forma regular del polígono en el radar también evidencia una relación bastante balanceada entre el IDH y las diferentes variables, sin que una sobresalga de forma extrema frente a las demás.

Resultados del modelo lineal

Intercepto (β0)

El intercepto es un valor numérico que representa el punto donde la línea cruza el eje Y, nos dice el valor que tomaría nuestra variable Y cuando las variables independientes X valen 0. En este caso el Índice de Desarrollo Humano tomaría el valor de 0.1684 cuando el gasto en salud, esperanza de vida, acceso a la electricidad y acceso a la salud son 0.

Cabe aclarar que, aunque este es un valor que arroja el modelo, en un contexto real no tiene ninguna interpretación lógica con motivo de que no hay ningún valor de nuestras variables que sea 0.

Análisis del R² Ajustado

El valor de R² ajustado reportado por el modelo es:

R² ajustado = 0.9512

Esto indica que aproximadamente el 95.12% de la variabilidad observada en la variable dependiente es explicada por el conjunto de variables independientes incluidas en el modelo. Se considera un valor muy alto, lo que sugiere que el modelo tiene un excelente ajuste a los datos, que es robusto y logra explicar la mayor parte de la variabilidad en el Índice de Desarrollo Humano.

Análisis de supuestos

A continuación, se consolidan en tablas los resultados de las funciones Shapiro-Wilk, Breusch-Pagan, VIF (Variance Inflation Factor) para facilitar la visualización e interpretación de cada uno de los supuestos

Supuesto de linealidad

El p-valor es mayor que 0.05, por lo tanto, no se rechaza la hipótesis nula de normalidad. Esto significa que los residuos del modelo están distribuidos normalmente, cumpliendo con este supuesto fundamental para la inferencia estadística (como los intervalos de confianza o los tests de significancia).

Supuesto de homocedasticidad

El p-valor es menor que 0.05, por lo que se rechaza la hipótesis de homocedasticidad. Esto indica que existe heterocedasticidad, es decir, la varianza de los errores no es constante, , lo cual podría afectar la validez de las inferencias del modelo

Supuesto de multicolinealidad

Los valores de GVIF ajustado están por debajo de 5, por lo tanto, no hay evidencia preocupante de multicolinealidad entre las variables predictoras. Esto significa que no hay redundancia significativa entre las variables independientes y sus efectos individuales pueden ser estimados con precisión.

¿Es posible aplicar inferencia usando el modelo?

Puesto que los datos no son homocedasticos, no se cumple en su totalidad los principios de la linealidad, no podemos realizar inferencia a nivel global o regional, a pesar de presentar normalidad en su distribución y tener una baja evidencia de multicolinealidad. Así todos los supuestos realizados nacen a partir de la muestra de los 64 países plasmados en la base de datos.

Hipótesis 1

El gasto en salud per cápita tiene un efecto positivo y significativo sobre el Índice de Desarrollo Humano (IDH).

  • El coeficiente estimado para GastoSalud es positivo y altamente significativo (p < 0.001), lo que sugiere que, a mayor gasto en salud, mayor es el IDH.

Hipótesis 2

El acceso a electricidad se asocia positivamente con el IDH.

  • El coeficiente de AccesoElectricidad también es significativo (p < 0.001), lo que indica que un mayor acceso energético podría estar vinculado con mejoras en el bienestar humano.

Hipótesis 3

Una mayor esperanza de vida se relaciona con un mayor nivel de desarrollo humano.

  • La variable EsperanzaVida muestra un coeficiente positivo y significativo (p < 0.01), lo cual es coherente con la idea de que mayor longevidad refleja mejores condiciones de vida.

Hipótesis 4

El acceso a servicios de salud no presenta un efecto estadísticamente significativo sobre el IDH en esta muestra.

  • Aunque el coeficiente es positivo, su p-valor (0.116) sugiere que, en este modelo, no se detecta un efecto significativo. Esta hipótesis podría investigarse más a fondo.

Conclusiones

El análisis de regresión lineal múltiple reveló que variables estructurales como el gasto en salud, el PIB en su categoría más alta, el acceso a electricidad y la esperanza de vida ejercen una influencia positiva y estadísticamente significativa sobre el Índice de Desarrollo Humano (IDH). Este hallazgo refuerza la teoría del desarrollo humano, que sostiene que los avances en infraestructura básica, salud y condiciones económicas se traducen en mejoras en la calidad de vida y bienestar de la población.

En particular, la categoría de un PIB alto sugiere que los países con mayores niveles de ingreso por habitante logran invertir más en políticas sociales y servicios públicos, mientras que la esperanza de vida actúa como un resumen de múltiples factores sociales, económicos y sanitarios que reflejan el desarrollo sostenido de un país. Asimismo, el acceso a electricidad se muestra como un componente esencial de las condiciones materiales que permiten el ejercicio de derechos como la educación, el trabajo y la salud.

Por otro lado, resulta llamativo que el acceso a salud no haya resultado significativo en el modelo, lo que podría deberse a diversas razones. Entre ellas, una posible homogeneidad en la cobertura dentro de la muestra, la falta de variabilidad entre países o una desconexión entre el acceso nominal y la calidad efectiva del servicio. Esta ausencia de efecto estadístico no implica necesariamente irrelevancia en la práctica, sino que su impacto podría estar mediado o enmascarado por otras variables no incluidas en el modelo.

En síntesis, los resultados reflejan relaciones congruentes con la literatura sobre desarrollo humano, pero también invitan a profundizar en el análisis de componentes estructurales de los servicios sociales, especialmente en lo relacionado con el acceso a la salud.

Referencias