Introducción

La esperanza de vida al nacer (Life_exp) es un indicador clave del bienestar social y sanitario de un país. Sin embargo, su variación entre naciones sugiere que múltiples factores interactúan para explicar estas diferencias. Este estudio busca responder: ¿Cómo influyen los factores económicos (PIB per cápita), demográficos (población, tasa de mortalidad) y de desarrollo humano (HDI) en la esperanza de vida de los países, considerando diferencias continentales?

Para abordar esta pregunta, se analizaron datos de 2021 de Our World in Data, aplicando un modelo de regresión lineal múltiple. Los resultados podrían guiar políticas públicas orientadas a mejorar la calidad de vida, priorizando variables críticas como el acceso a recursos económicos y sanitarios.

Metodología

Fuentes de datos

Los datos se obtuvieron de:
- Our World in Data: GDP per cápita, población, tasa de mortalidad, esperanza de vida.
- Human Development Report: Categorización del HDI (alto, medio, bajo).

Procesamiento de datos

  • Filtrado: Solo se incluyeron países con datos completos para 2021.
  • Limpieza: Eliminación de valores faltantes y unificación de nombres de variables.
  • Transformación: La variable HDI se recategorizó en “High” para simplificar el análisis.

Modelo estadístico

El modelo de regresión múltiple se define como:
\[ Life\_exp = \beta_0 + \beta_1 GDP + \beta_2 Death\_rate + \beta_3 Population + \gamma HDI_{\text{High}} + \delta Continent + \epsilon \]
Donde:
- \(\beta_1, \beta_2, \beta_3\): Efecto de variables cuantitativas.
- \(\gamma\): Efecto de tener un HDI “High”.
- \(\delta\): Efectos fijos por continente.

bd_gdp <- read.csv("gdp-per-capita-worldbank.csv")
bd_pop <- read.csv("population.csv")
bd_eng <- read.csv("yearly_full_release_long_format.csv") 
bd_hdi <- read_excel("HDR_Statistical_Annex_HDI_Table.xlsx")
bd_lif <- read.csv("life-expectancy.csv")
bd_death <- read.csv("death-rate.csv")

view(bd_gdp)
view(bd_pop)
view(bd_eng)
view(bd_hdi)
view(bd_lif)
view(bd_death)

#Filtramos las bases de datos

bd_death_1 <- bd_death %>% 
  select(Entity, Year, Death.rate...Sex..all...Age..all...Variant..estimates) %>% 
  filter(Year == "2021")

view(bd_death_1)

bd_hdi_1 <- bd_hdi %>% 
  select(Entity, Year, `HDI rank`) %>% 
  filter(Year == "2021")

view(bd_hdi_1)

bd_gdp_1 <- bd_gdp %>% 
  select(Entity, Year, GDP.per.capita..PPP..constant.2021.international...) %>% 
  filter(Year == "2021")

view(bd_gdp_1)

bd_pop_1 <- bd_pop %>% 
  select(Entity, Year, Population..historical.) %>% 
  filter(Year == "2021")

view(bd_pop_1)


bd_eng_1 <- bd_eng %>% 
  select(Area, Continent, Year) %>% 
  filter(Year == "2021") %>% 
  filter(!is.na(Continent))  # Elimina filas donde Continent es NA

view(bd_eng_1)

bd_lif_1 <- bd_lif %>% 
  select(Entity, Year, Period.life.expectancy.at.birth...Sex..total...Age..0) %>% 
  filter(Year == "2021")

view(bd_lif_1)

Resultados Descriptivos

Tendencia global

La esperanza de vida promedio en 2021 fue de 71.5 años (DE = 7.5), con diferencias significativas entre categorías de HDI:
- HDI High: 75.5 años.
- HDI Medium: 66.4 años.
- HDI Low: 61 años.

Hallazgos visuales

  • Boxplot por continente: Europa registró la mayor mediana de Life_exp (81 años), mientras que África mostró la menor (62 años).
  • GDP vs. Life_exp: La relación positiva se confirma (coef. regresión = 6.32e-05, p < 0.001), pero países petroleros (ej. Arabia Saudita) aparecen como atípicos.
# Estadísticas descriptivas

df <- dplyr::select_if(bd_final_1, is.numeric)

r <- cor(df)

ggcorrplot(r)

ggcorrplot(r, 
           hc.order = TRUE, 
           type = "lower",
           lab = TRUE)

#Respecto a GDP

mean(bd_final_1$GDP)
## [1] 25367.24
median(bd_final_1$GDP)
## [1] 16137.76
sd(bd_final_1$GDP)
## [1] 26044.33
#Respecto a Life_exp

mean(bd_final_1$Life_exp)
## [1] 71.46053
median(bd_final_1$Life_exp)
## [1] 72
sd(bd_final_1$Life_exp)
## [1] 7.500889
#Respecto a Population
mean(bd_final_1$Population)
## [1] 42924388
median(bd_final_1$Population)
## [1] 9109210
sd(bd_final_1$Population)
## [1] 165638757
#Respecto a Death_rate

mean(bd_final_1$Death_rate)
## [1] 8.903421
median(bd_final_1$Death_rate)
## [1] 8.357
sd(bd_final_1$Death_rate)
## [1] 3.438296
# Gráficos

grafico1<- ggplot(bd_final_1, aes(x = Life_exp)) +
  geom_histogram(binwidth = 2, fill = "skyblue", color = "black") +
  theme_minimal()

ggplotly(grafico1)
grafico2<- ggplot(bd_final_1, aes(x = Continent, y = GDP)) +
  geom_boxplot(fill = "orange") +
  theme_minimal()

ggplotly(grafico2)
grafico3<- ggplot(bd_final_1, aes(x = Continent, y = Population)) +
  geom_boxplot(fill = "orange") +
  theme_minimal()

ggplotly(grafico3)
grafico4<- ggplot(bd_final_1, aes(x = Continent, y = Life_exp)) +
  geom_boxplot(fill = "orange") +
  theme_minimal()

ggplotly(grafico4)
grafico5<- ggplot(bd_final_1, aes(x = Continent, y = Death_rate)) +
  geom_boxplot(fill = "orange") +
  theme_minimal()

ggplotly(grafico5)
grafico6<- ggplot(bd_final_1, aes(x = GDP, y = Life_exp)) +
  geom_point() +
  geom_smooth(method = "lm") +
  theme_minimal()

ggplotly(grafico6)
## `geom_smooth()` using formula = 'y ~ x'
grafico7<- ggplot(bd_final_1, aes(x = Death_rate, y = Life_exp)) +
  geom_point() +
  geom_smooth(method = "lm") +
  theme_minimal()

ggplotly(grafico7)
## `geom_smooth()` using formula = 'y ~ x'

Resultados del Modelo

Coeficientes significativos

El modelo explica el 81.95% de la varianza en esperanza de vida (R² ajustado = 0.8195).
- GDP: Por cada $10,000 de aumento en el PIB per cápita, la esperanza de vida aumenta 0.63 años (β = 6.32e-05, p < 0.001).
- Death_rate: Un incremento de 1 unidad en la tasa de mortalidad reduce Life_exp en 0.77 años (β = -0.767, p < 0.001).
- HDI:
- Países con HDI “Low” tienen 7.88 años menos de esperanza de vida vs. HDI “High” (p < 0.001).
- HDI “Medium” reduce Life_exp en 5.55 años (p < 0.001).
- Continente:
- Europa contribuye +9.62 años vs. referencia (África) (p < 0.001).
- Asia y Sudamérica muestran efectos positivos (β = 3.22 y 3.15 años, p < 0.05).

Validación del modelo

  • Normalidad: Residuos siguen distribución normal (Prueba de Lilliefors, p = 0.489).
  • Homocedasticidad: Se rechaza homocedasticidad (Prueba Breusch-Pagan, p = 0.002), sugiriendo varianza no constante. Se recomienda usar errores estándar robustos.
  • Multicolinealidad: Todas las variables tienen VIF < 5 (no mostrado), descartando colinealidad crítica
# Modelo de regresión y diagnósticos

modelo1 <- lm(Life_exp ~ Population + GDP + Death_rate + as.factor(HDI) + as.factor(Continent), bd_final_1)
summary(modelo1)
## 
## Call:
## lm(formula = Life_exp ~ Population + GDP + Death_rate + as.factor(HDI) + 
##     as.factor(Continent), data = bd_final_1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -7.1460 -1.9623 -0.2805  1.6470 12.8060 
## 
## Coefficients:
##                                     Estimate Std. Error t value Pr(>|t|)    
## (Intercept)                        7.498e+01  1.358e+00  55.209  < 2e-16 ***
## Population                         1.869e-09  1.634e-09   1.144 0.254534    
## GDP                                6.320e-05  1.578e-05   4.005 9.99e-05 ***
## Death_rate                        -7.668e-01  1.072e-01  -7.153 4.24e-11 ***
## as.factor(HDI)Low                 -7.878e+00  1.047e+00  -7.521 5.81e-12 ***
## as.factor(HDI)Medium              -5.552e+00  8.161e-01  -6.803 2.70e-10 ***
## as.factor(Continent)Asia           3.222e+00  9.056e-01   3.558 0.000509 ***
## as.factor(Continent)Europe         9.624e+00  1.223e+00   7.867 8.65e-13 ***
## as.factor(Continent)North America  3.869e+00  1.033e+00   3.747 0.000260 ***
## as.factor(Continent)Oceania        2.565e+00  1.220e+00   2.102 0.037287 *  
## as.factor(Continent)South America  3.148e+00  1.273e+00   2.473 0.014582 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.186 on 141 degrees of freedom
## Multiple R-squared:  0.8315, Adjusted R-squared:  0.8195 
## F-statistic: 69.58 on 10 and 141 DF,  p-value: < 2.2e-16
grafico9<- visreg(modelo1, "GDP", gg = TRUE)

ggplotly(grafico9)
plot(modelo1)

# Normalidad

lillie.test(modelo1$residuals)
## 
##  Lilliefors (Kolmogorov-Smirnov) normality test
## 
## data:  modelo1$residuals
## D = 0.049275, p-value = 0.4889
# Varianza constante

bptest(modelo1)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo1
## BP = 27.29, df = 10, p-value = 0.002343

Conclusiones

En resumen, este estudio confirma y cuantifica que la esperanza de vida global en 2021 está fuertemente determinada por el nivel de desarrollo económico, el desarrollo humano general, las tasas de mortalidad y los factores geográficos. El modelo de regresión lineal múltiple utilizado demostró un alto poder explicativo logrando explicar aproximadamente el 82% de la variabilidad en la esperanza de vida a nivel mundial en el año 2021 (R² ajustado = 0.8195), y revelando que un aumento de $10,000 en el PIB per cápita se asocia con un incremento de 0.63 años en la esperanza de vida (β = 0.63), mientras que cada unidad de aumento en la tasa de mortalidad reduce la esperanza de vida en 0.77 años (β = -0.767). El Índice de Desarrollo Humano (IDH) también juega un papel crucial, con una clara gradación donde los países con IDH Alto tienen la mayor esperanza de vida, seguidos por los de IDH Medio (5.55 años menos) y Bajo (7.88 años menos). Además, la ubicación geográfica es determinante, con diferencias significativas entre continentes, siendo África el continente de referencia, y Europa mostrando un aumento de 9.62 años, mientras que Norteamérica (β = 3.87), Asia (β = 3.22), Sudamérica (β = 3.15) y Oceanía (β = 2.57) también muestran efectos positivos significativos.

Se evaluaron los supuestos del modelo de regresión. Los residuos siguen una distribución normal (Prueba de Lilliefors, p = 0.489), pero se detectó heterocedasticidad (Prueba de Breusch-Pagan, p = 0.002), lo que sugiere que la varianza de los errores no es constante, por lo que se recomienda el uso de errores estándar robustos. Afortunadamente, la multicolinealidad no representa un problema crítico, ya que el VIF es menor que 5. Además de la heterocedasticidad, el análisis visual de los gráficos de dispersión reveló una relación no lineal entre una variable, la esperanza de vida y el PIB per cápita, donde se observó una curvatura en la distribución de los puntos. Por lo tanto, al no cumplir con el supuesto de homocedasticidad y evidenciar una relación no lineal entre algunas variables importantes, este modelo tiene limitaciones para inferir con precisión la expectativa de vida en poblaciones más grandes, y sus resultados deben interpretarse con precaución al generalizar.

Estos hallazgos tienen implicaciones importantes para las políticas públicas. Las intervenciones que buscan aumentar el PIB per cápita, mejorar el desarrollo humano (especialmente en países de IDH bajo y medio) y reducir la mortalidad tendrían un impacto significativo en el aumento de la esperanza de vida global. Las políticas públicas deberían priorizar estas áreas para lograr mejoras sustanciales en la salud y el bienestar de la población mundial. Futuras investigaciones podrían explorar otros factores relevantes para obtener una comprensión aún más completa de los determinantes de la esperanza de vida global.