Introducción

La esperanza de vida es un indicador clave del desarrollo humano y el bienestar general de una población. Representa no solo el nivel de salud y nutrición de un país, sino también el impacto acumulativo de factores socioeconómicos, educativos y ambientales. En este estudio, se realiza un análisis predictivo de la esperanza de vida en distintos países utilizando técnicas de clasificación supervisada y regresión. En particular, se busca clasificar a los países según si su esperanza de vida se encuentra por encima o por debajo de la mediana global, y además se muestra un ejemplo de regresión que permitiría estimar su valor numérico.

Los modelos utilizados incluyen el algoritmo kNN más cercanos y árboles de decisión, dos técnicas ampliamente utilizadas en aprendizaje automático por su simplicidad, capacidad de interpretación y rendimiento en problemas de clasificación binaria. A través de este enfoque, se pretende evaluar la importancia relativa de diversas variables predictoras como el PIB per cápita, el gasto en salud, el acceso al agua potable o la tasa de alfabetismo y entender cómo contribuyen al nivel de esperanza de vida en cada país.

Además de construir modelos, este análisis enfatiza la limpieza, transformación y visualización de los datos, componentes esenciales en cualquier proceso de ciencia de datos. Se utilizan herramientas del ecosistema tidyverse en R y se presentan gráficamente los resultados para facilitar su interpretación y comunicación. El enfoque del estudio es exploratorio, descriptivo y predictivo, y busca tanto descubrir patrones relevantes como demostrar la aplicabilidad de métodos estadísticos y de machine learning en contextos reales con datos abiertos del Banco Mundial.

Metodología y preparación de datos

Este estudio sigue una secuencia estructurada de pasos, desde la obtención y preparación de datos hasta el entrenamiento y evaluación de modelos de clasificación.

1. Carga y transformación de datos

Los datos utilizados fueron obtenidos de la base de indicadores del Banco Mundial (World Development Indicators) correspondientes al año 2015. Se seleccionaron variables relacionadas con el desarrollo humano, la salud, la economía, el medioambiente y la educación. A continuación, se reestructuró el dataset para convertirlo de formato largo a ancho, dejando una fila por país y una columna por indicador.

Posteriormente, se convirtieron todas las variables numéricas a tipo numeric, y se manejaron los valores perdidos mediante imputación con la mediana, técnica que evita sesgos derivados de la omisión de registros completos.

2. Variable objetivo

La variable principal de interés es la esperanza de vida al nacer. Esta se transformó en una variable binaria para facilitar el análisis de clasificación: los países cuya esperanza de vida está por encima de la mediana global se etiquetaron como “Sí” (alta esperanza de vida), y los demás como “No”.

3. Análisis descriptivo

Se generaron estadísticas descriptivas por grupo de esperanza de vida (alta/baja), incluyendo media y desviación estándar de las variables predictoras. Luego, se crearon gráficos boxplot e histogramas para visualizar la distribución de cada variable y su relación con la esperanza de vida.

4. División de la muestra

Se dividió el dataset en subconjuntos de entrenamiento (80%) y prueba (20%), asegurando que la proporción de clases en la variable objetivo se mantuviera en ambas particiones (estratificación).

5. Preprocesamiento

Las variables predictoras fueron normalizadas (centrado y escalado) para asegurar que los modelos que dependen de la distancia (como kNN) no se vean sesgados por diferencias de escala entre variables.

6. Modelado

Se entrenaron dos modelos de clasificación:

kNN más cercanos: Se utilizó k=3, y se evaluó la matriz de confusión para calcular métricas de desempeño como exactitud, sensibilidad, especificidad y F1-score.
Árbol de decisión: Se entrenó con poda preventiva y restricciones de profundidad para evitar sobreajuste. Este modelo permite una interpretación visual clara de los factores que influyen en la clasificación.

7. Evaluación comparativa

Se compararon ambos modelos usando métricas estándar extraídas de las matrices de confusión. Esto permitió identificar cuál modelo se desempeña mejor y qué variables tienen mayor peso en las decisiones del modelo.

Este enfoque mixto entre análisis estadístico descriptivo y técnicas de aprendizaje supervisado permite obtener una comprensión profunda del fenómeno de la esperanza de vida, tanto desde una perspectiva explicativa como predictiva.

Estadísticas Descriptivas

Con el fin de evaluar los principales indicadores estadísticos, así como la distribución de los datos, se realizarán histogramas y diagramas de caja y bigote.

Resumen estadístico

Histogramas

En general, se puede observar lo siguiente:

PIB per cápita: Los países con alta esperanza de vida tienden a concentrarse en valores más altos de ingreso per cápita. La distribución del grupo “Sí” se desplaza hacia la derecha, evidenciando una asociación entre desarrollo económico y longevidad.
Gasto en salud (% del PIB): También muestra un sesgo hacia valores mayores en países con alta esperanza de vida, lo cual sugiere que una mayor inversión pública en salud está relacionada con mejores resultados en longevidad.
Mortalidad infantil: Tiene una forma opuesta. Los países con baja esperanza de vida (rojo) tienen distribuciones más altas de mortalidad infantil, lo cual es coherente con la literatura: altos niveles de mortalidad infantil reflejan debilidades estructurales en los sistemas de salud y condiciones sociales precarias.
Tasa de alfabetismo y acceso a agua potable: Ambas variables muestran que los países con alta esperanza de vida tienden a tener mejor acceso a servicios básicos y educación. La diferencia de densidades es notoria y consistente.
Tasa de fertilidad: En países con baja esperanza de vida, los valores de fertilidad son más altos, lo cual es coherente con la teoría de la transición demográfica. A medida que las condiciones de vida mejoran, disminuyen los nacimientos por mujer y aumenta la longevidad.

Box-plots

Los diagramas de caja y bigote (boxplots) comparan la distribución de cada variable cuantitativa entre los dos grupos de esperanza de vida. A través de la mediana, los cuartiles y los posibles valores atípicos, se puede apreciar con mayor claridad la dispersión y centralidad de los datos.

Y por lo tanto pudimos observar qué:

PIB per cápita: Los países con alta esperanza de vida tienen una mediana mucho más alta y menos dispersión, mientras que los de baja esperanza muestran una mayor variabilidad. Esto indica una clara diferencia estructural en los niveles de ingreso.
Mortalidad infantil: Muestra una diferencia contundente. En el grupo de alta esperanza de vida, los valores son significativamente más bajos y con menos variación. Es una de las variables más discriminantes del análisis.
Gasto en salud y educación: En ambos casos, los países con alta esperanza de vida presentan valores superiores y menos dispersión. Esto sugiere que la estabilidad y la inversión en servicios sociales son determinantes clave.
Tasa de alfabetismo: Similar a las anteriores, muestra que los países con mejor esperanza de vida presentan mayores niveles de alfabetización, con una mediana claramente desplazada hacia el 100%.
Fertilidad: Nuevamente se observa que los países con baja esperanza de vida tienden a tener tasas más altas, y además más dispersas.
Acceso a agua potable: Los países con alta esperanza de vida presentan porcentajes más altos y menos dispersión, reflejando mayor cobertura de servicios básicos.

vars_individuales <- setdiff(names(df_ml)[sapply(df_ml, is.numeric)], c("Esperanza de vida"))
for (var in vars_individuales) {
  p <- ggplot(df_ml, aes(x = LifeExp_Bin, y = .data[[var]], fill = LifeExp_Bin)) +
    geom_boxplot(alpha = 0.7) +
    scale_fill_manual(values = c("No" = "red3", "Sí" = "green4")) +
    labs(title = paste(var, "por nivel de esperanza de vida"),
         x = "Esperanza de vida binaria",
         y = var,
         fill = "Esperanza de vida alta") +
    theme_minimal(base_size = 14)
  print(p)
}

Preparación

Se imputaron los datos faltantes con la mediana, medida de tendencia central que no es sensible a datos atípicos. Adicionalmente se realizó una división 80/20 estratificada, con el fin de tener un dataset de pruebas o con clases suficientes para hacer una evaluación efectiva.

Adicionalmente, se eliminarón las columnas no predictoras, se separarón las variables y se realizaron correcciones necesarias para evitar errores.

Entrenamiento

Se desarrollarán y compararán los resultados de dos modelos diferentes: Uno entrenado mediante k-nearest-neightbors (kNN) y otro mediante árboles de decisión.

Modelo kNN

El resultado del modelo kNN nos refleja, que el modelo esta completamente sesgado hacia la clase esperanza de vida. Esto se puede deber a un valor de k inadecuado, la escala de las variables es poco discriminativa entre clases. Este modelo acertó todos los paises con alta esperanza de vida (especificidad = 1.0). No detecto ninguno con baja esperanza de vida (sensibilidad = 0.0).

Modelo Árbol de Decisión

El modelo de Árbol predice siempre la clase 0 es decir la esperanza de vida baja. Además detectó todos los casos negativos correctamente en la sensibilidad = 1.0; pero no identifica ningún caso positivo, lo que lleva a una especificidad = 0.0.

Árbol de Decisión

Comparación

En este análisis de clasificación binaria sobre la esperanza de vida en países suramericanos en el año 2015, se aplicaron dos enfoques distintos de aprendizaje supervisado: el algoritmo k-vecinos más cercanos (kNN) con k=3, y un árbol de decisión construido con el paquete rpart. Ambos modelos fueron entrenados con la misma partición estratificada del conjunto de datos, lo cual permite una comparación justa y directa.

Interpretación de métricas:

Ambos modelos tienen una precisión general baja (50%), lo cual es indicativo de que no están generalizando bien sobre el conjunto de prueba. Esto podría deberse a la cantidad limitada de datos o a una falta de variables con poder predictivo fuerte.
kNN logra un equilibrio entre sensibilidad y especificidad, con una ligera inclinación hacia detectar mejor la clase “No” (baja esperanza de vida). Esto es esperable en modelos de distancia si hay una distribución más uniforme.
El árbol de decisión, en contraste, clasifica absolutamente todos los países como “Sí” (alta esperanza de vida). Esto se traduce en una sensibilidad perfecta, pero especificidad nula. En otras palabras, nunca detecta un país con esperanza de vida baja. Aunque parece bueno por un lado, es un caso claro de modelo sesgado hacia la clase mayoritaria.

Capacidad de interpretación

El árbol de decisión ofrece una gran ventaja, la visualización en el modelo detectó que la única variable utilizada fue, el PIB per cápita, con un único umbral de corte; significa que el modelo no aprovechó las demás variables ni captó relaciones más profundas.

Por otro lado, kNN no es interpretativo, no dice explícitamente qué variable está siendo más influyente, ya que su decisión se basa en distancias globales en un espacio con múltiples dimensiones. Sin embargo, suele ser más robusto en situaciones con muchas variables relevantes o correlacionadas.

Conclusión

Los resultados obtenidos con base en la evidencia empírica, y de acuerdo con el modelo de árbol de decisión, es que el factor principal de un país para que su expectativa de vida sea alta es un PIB elevado. Valga la redundancia, este análisis está sujeto a la baja disponibilidad de datos y es posible que futuras investigaciones con un mayor volúmen de datos evidencie resultados diferentes a los expuestos.

Bibliografía

Therneau, Atkinson, Ripley (2025). rpart. Disponible en (https://cran.r-project.org/web/packages/rpart/rpart.pdf)[https://cran.r-project.org/web/packages/rpart/rpart.pdf]. Consultado el 6 de mayo de 2025.
Wickham H, François R, Henry L, Müller K, Vaughan D (2023). dplyr: A Grammar of Data Manipulation. R package version 1.1.4, https://github.com/tidyverse/dplyr, https://dplyr.tidyverse.org.
World Bank (s.f.). World Development Indicators. Databank World Bank. Consultado el 6 de mayo de 2025. (https://databank.worldbank.org/source/world-development-indicators#)[https://databank.worldbank.org/source/world-development-indicators#].
Kuhn et al (2024). caret: Classification and Regression Training. Cran. Consultado el 6 de mayo de 2025. (https://cran.r-project.org/web/packages/caret/)[https://cran.r-project.org/web/packages/caret/]

Análisis de la relevancia de variables socio económicas sobre la esperanza de vida en Países Suramericanos en 2015

Jeremy Andrés Salguero Gonzalez

Danna Sofía Imbachi Caicedo

Angie Camila Montes Yacumal

2025-05-07