Taller 2 - Regresión Lineal

1 Introducción

Los datos utilizados en este análisis provienen de la base de datos de Indicadores del Desarrollo Mundial del Banco Mundial, que está disponible en el siguiente enlace: World Bank Indicators.

En particular, se ha seleccionado la información correspondiente al año 2018 para realizar un análisis de la esperanza de vida al nacer en diferentes países.

1.1 Variables seleccionadas

En este análisis, se han seleccionado las siguientes variables:

  • Variable dependiente:
    • exp_vida_nacer: Esperanza de vida al nacer, que se considera como la variable dependiente en este modelo. Esta variable refleja la cantidad promedio de años que un recién nacido puede esperar vivir, asumiendo que las tasas de mortalidad por edad del año de su nacimiento se mantendrán constantes durante toda su vida.
  • Variables independientes cuantitativas:
    • parto_Profesional_salud: Porcentaje de nacimientos atendidos por profesionales de la salud. Esta variable cuantitativa se usa para medir el acceso a servicios de salud durante el parto.
    • anemia_madre: Porcentaje de mujeres embarazadas que sufren de anemia. Esta es una variable clave para entender la relación entre la salud materna y la esperanza de vida.
    • inseg_alim: Porcentaje de población con inseguridad alimentaria. Esta variable mide el porcentaje de la población en los países que enfrenta inseguridad alimentaria, un factor importante para la salud general.
    • mort_materna: Tasa de mortalidad materna. Se mide el número de muertes de mujeres durante el embarazo o en el primer año después del parto por cada 100,000 nacidos vivos.
    • gasto_salud: Gasto en salud como porcentaje del Producto Interno Bruto (PIB). Esta variable refleja el nivel de inversión del país en el sistema de salud.
  • Variable independiente cualitativa:
    • continente: La variable continente se utiliza para categorizar los países en diferentes regiones del mundo. Esta es la variable cualitativa que tiene varias categorías, como América, Europa, Asia, etc.

1.2 Descripción de los datos

A continuación, se presenta un pequeño resumen de las primeras observaciones de los datos cargados:

## # A tibble: 6 × 12
##   año   pais      parto_Profesional_salud anemia_madre inseg_alim exp_vida_nacer
##   <chr> <chr>                       <dbl>        <dbl>      <dbl>          <dbl>
## 1 2018  Argentina                    99.5         25.6       12.9           76.8
## 2 2018  Brazil                       98.8         22          1.1           75.6
## 3 2018  France                       98.1         14.4        0.7           82.7
## 4 2018  Germany                      96.2         15.4        0.7           80.9
## 5 2018  Indonesia                    93.6         29.5        0.8           70.1
## 6 2018  Japan                        99.9         25.3        0.7           84.2
## # ℹ 6 more variables: mort_materna <dbl>, gasto_salud <dbl>, ingreso_pc <dbl>,
## #   continente <chr>, log_mort_materna <dbl>, log_gasto_salud <dbl>

1.3 Estadísticas Descriptivas

Para obtener un panorama general de la distribución de las variables, puedes mostrar las estadísticas descriptivas (media, mediana, mínimo, máximo, etc.) de las variables numéricas.

##      año                pais           parto_Profesional_salud  anemia_madre  
##  Length:56          Length:56          Min.   : 46.10          Min.   :10.20  
##  Class :character   Class :character   1st Qu.: 95.75          1st Qu.:20.50  
##  Mode  :character   Mode  :character   Median : 98.95          Median :25.35  
##                                        Mean   : 94.33          Mean   :27.66  
##                                        3rd Qu.: 99.80          3rd Qu.:30.98  
##                                        Max.   :100.00          Max.   :60.50  
##    inseg_alim     exp_vida_nacer   mort_materna       gasto_salud      
##  Min.   : 0.000   Min.   :54.64   Min.   :0.002314   Min.   :   21.13  
##  1st Qu.: 1.100   1st Qu.:73.19   1st Qu.:0.008714   1st Qu.:  274.08  
##  Median : 2.650   Median :76.61   Median :0.025451   Median :  663.89  
##  Mean   : 5.525   Mean   :75.21   Mean   :0.317907   Mean   : 1711.01  
##  3rd Qu.: 6.925   3rd Qu.:80.64   3rd Qu.:0.128827   3rd Qu.: 1836.63  
##  Max.   :28.100   Max.   :84.21   Max.   :2.826364   Max.   :10180.48  
##    ingreso_pc       continente        log_mort_materna log_gasto_salud
##  Min.   :-6.3805   Length:56          Min.   :-4.397   Min.   :3.097  
##  1st Qu.: 0.8632   Class :character   1st Qu.:-3.979   1st Qu.:5.617  
##  Median : 2.1760   Mode  :character   Median :-3.340   Median :6.499  
##  Mean   : 2.6370                      Mean   :-2.693   Mean   :6.448  
##  3rd Qu.: 4.5606                      3rd Qu.:-1.975   3rd Qu.:7.510  
##  Max.   :13.3898                      Max.   : 1.043   Max.   :9.228

1.4 Distribución de Variables

A continuación, se presentan diferentes visualizaciones para analizar la distribución de variables clave y su comportamiento entre regiones.

Por un lado, se muestran histogramas para la esperanza de vida al nacer y la mortalidad materna, los cuales permiten identificar la forma de sus distribuciones y posibles asimetrías.

Adicionalmente, se analiza el gasto en salud per cápita mediante dos enfoques: - Un histograma con curva de densidad, que permite observar su distribución y detectar posibles sesgos. - Un diagrama de caja por continente, que permite comparar esta variable entre las distintas categorías cualitativas, evidenciando diferencias entre regiones y la presencia de valores extremos.

1.5 Matriz de Correlación

A continuación se muestra la matriz de correlación entre las principales variables cuantitativas

Las correlaciones más fuertes son:

  • parto_Profesional_salud y exp_vida_nacer (r = 0.73): A mayor acceso a servicios profesionales de salud durante el parto, mayor esperanza de vida al nacer.
  • mort_materna y anemia_madre (r = 0.80): Existe una fuerte correlación positiva entre la mortalidad materna y la anemia materna, lo que sugiere que ambas están estrechamente relacionadas.

1.6 Distribución de Países por Continente

En este gráfico de barras se visualiza la distribución de los países en cada continente. Se observa que Europa tiene la mayor cantidad de países en el conjunto de datos, seguida de África y América. Asia-Oceanía tiene la menor cantidad de países representados en la base de datos.

2 Analizar la relación entre variables

Se pueden observar las distribuciones y relaciones entre las variables mediante gráficos de dispersión, que permiten analizar las posibles correlaciones entre ellas. A continuación, se muestra una matriz de correlación para explorar las relaciones lineales entre las variables seleccionadas:

Del análisis preliminar de la matriz de correlaciones se pueden extraer las siguientes conclusiones:

  • Las variables con mayor relación lineal con la esperanza de vida al nacer (exp_vida_nacer) son:
    • Mortalidad materna (r = -0.834), con una fuerte correlación negativa: a mayor mortalidad materna, menor esperanza de vida.
    • Anemia materna (r = -0.821), también con fuerte correlación negativa.
    • Parto con profesional de salud (r = 0.728), con correlación positiva: mayor cobertura de parto profesional se asocia a mayor esperanza de vida.
  • Entre las variables explicativas, se observan correlaciones moderadas y fuertes, por ejemplo:
    • Mortalidad materna y anemia materna (r = 0.802), lo que indica posible multicolinealidad, por lo que puede no ser útil incluir ambas en el modelo simultáneamente.
  • Algunas variables presentan distribuciones sesgadas o no normales, evidenciado en sus histogramas, como mortalidad materna y gasto en salud, lo que sugiere que una transformación logarítmica podría ayudar a normalizar sus distribuciones para un mejor ajuste del modelo.

3 Modelo inicial

En este modelo se busca predecir la esperanza de vida al nacer (exp_vida_nacer) utilizando varias variables explicativas. Las variables seleccionadas incluyen el acceso a parto profesional de salud, anemia materna, inseguridad alimentaria, mortalidad materna, gasto en salud, ingreso per cápita y la variable continente. Estas variables se consideran factores relevantes para entender las diferencias en la esperanza de vida al nacer entre los países.

## 
## Call:
## lm(formula = exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + 
##     inseg_alim + mort_materna + gasto_salud + ingreso_pc + continente, 
##     data = base_modelo)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -9.8923 -1.0175  0.0773  1.9820  4.8375 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             70.5428847  7.6505988   9.221 5.04e-12 ***
## parto_Profesional_salud  0.0776604  0.0759512   1.023   0.3119    
## anemia_madre            -0.0544465  0.1009251  -0.539   0.5922    
## inseg_alim              -0.1350396  0.0905064  -1.492   0.1425    
## mort_materna            -4.6994486  1.7912282  -2.624   0.0118 *  
## gasto_salud              0.0007354  0.0002777   2.648   0.0111 *  
## ingreso_pc              -0.1805831  0.1653238  -1.092   0.2804    
## continenteAmericas      -0.0525790  2.0931648  -0.025   0.9801    
## continenteAsia-Oceania   0.0984986  2.0063446   0.049   0.9611    
## continenteEurope         0.7633895  2.1488834   0.355   0.7240    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.115 on 46 degrees of freedom
## Multiple R-squared:  0.8286, Adjusted R-squared:  0.795 
## F-statistic:  24.7 on 9 and 46 DF,  p-value: 8.971e-15

El modelo presenta un R² de 0.8286, lo que indica que aproximadamente el 82.86% de la variabilidad en la esperanza de vida al nacer es explicada por las variables incluidas en el modelo.

El R² ajustado (0.795) confirma que el modelo mantiene una buena capacidad explicativa, incluso después de penalizar por el número de variables.

Las variables mortalidad materna y gasto en salud resultan estadísticamente significativas, lo que sugiere que tienen un impacto relevante sobre la esperanza de vida al nacer.

Se observan relaciones no lineales en algunas variables, particularmente en mortalidad materna y gasto en salud, lo cual sugiere la necesidad de transformaciones.

4 Transformación de variables

Para mejorar la distribución de algunas variables y cumplir con los supuestos del modelo, se aplicaron transformaciones logarítmicas a dos variables clave: mortalidad materna (mort_materna) y gasto en salud (gasto_salud). Estas transformaciones fueron realizadas con el fin de reducir la asimetría en sus distribuciones y mejorar la linealidad con la esperanza de vida al nacer.

Posteriormente, se ajustó un nuevo modelo utilizando estas variables transformadas (log_mort_materna y log_gasto_salud), con el objetivo de verificar si las transformaciones mejoraban el ajuste del modelo y la validez de los supuestos.

## 
## Call:
## lm(formula = exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + 
##     inseg_alim + log_mort_materna + log_gasto_salud + ingreso_pc + 
##     continente, data = base_modelo)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -7.815 -1.064  0.135  1.785  3.299 
## 
## Coefficients:
##                         Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             60.16814    6.89743   8.723  2.6e-11 ***
## parto_Profesional_salud -0.05255    0.06273  -0.838 0.406517    
## anemia_madre             0.04433    0.08040   0.551 0.584109    
## inseg_alim              -0.03908    0.07523  -0.519 0.605936    
## log_mort_materna        -3.24681    0.77316  -4.199 0.000121 ***
## log_gasto_salud          1.57438    0.59629   2.640 0.011275 *  
## ingreso_pc               0.04062    0.14010   0.290 0.773142    
## continenteAmericas       2.05789    1.73506   1.186 0.241688    
## continenteAsia-Oceania   0.81066    1.69794   0.477 0.635311    
## continenteEurope        -1.62272    1.87353  -0.866 0.390916    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.541 on 46 degrees of freedom
## Multiple R-squared:  0.8859, Adjusted R-squared:  0.8636 
## F-statistic: 39.69 on 9 and 46 DF,  p-value: < 2.2e-16

4.1 Resumen del Modelo de Regresión (con Transformaciones)

El modelo muestra una mejora significativa con las transformaciones logarítmicas:

  • R² = 0.8859
  • R² ajustado = 0.8636

Las variables transformadas, log_mort_materna (coef = -3.2468, p = 0.000121) y log_gasto_salud (coef = 1.5744, p = 0.0113), son altamente significativas y tienen un impacto relevante sobre la esperanza de vida al nacer.

4.2 Prueba de Normalidad de Shapiro-Wilk

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo2$residuals
## W = 0.94782, p-value = 0.01701

El p-valor de la prueba de normalidad de Shapiro-Wilk es 0.01701, lo que es menor a 0.05, indicando que los residuos no siguen una distribución normal. Esto sugiere que podría haber outliers o que las suposiciones del modelo no se cumplen completamente.

5 Identificación de outliers

Durante el análisis se identificaron tres outliers correspondientes a los países Estados Unidos, Gambia y Lesotho. Estos países presentaban valores extremos en la variable de mortalidad materna, lo que podría afectar la validez de los supuestos del modelo y la robustez de los resultados.

Países identificados como observaciones influyentes
País Log Mort. Materna Log Gasto Salud Exp. Vida Anemia Madre (%) Parto Profesional (%)
United States -3.30 9.23 78.64 10.2 99.1
Gambia, The 0.65 3.14 64.03 57.3 82.7
Lesotho 0.41 4.88 54.64 32.6 86.6
Note:
Fuente: World Development Indicators, Banco Mundial (2018)

Durante el análisis exploratorio se identificaron tres países con valores extremos que se apartan notablemente del comportamiento general de la muestra: Estados Unidos registra el gasto en salud más alto de la muestra (log = 9.23), pero presenta una mortalidad materna inusualmente elevada (log = -3.30) para ese nivel de inversión, lo cual contradice la tendencia general observada entre ambas variables. Este comportamiento atípico se atribuye a las inequidades de acceso propias del sistema de salud estadounidense. Gambia concentra los valores más extremos de la muestra en múltiples variables: la mortalidad materna más alta (log = 0.65), el gasto en salud más bajo (log = 3.14), una prevalencia de anemia materna del 57.3% y solo un 82.7% de partos atendidos profesionalmente. Lesotho presenta la esperanza de vida más baja (54.64 años) y una mortalidad materna alta (log = 0.41), condiciones asociadas a la severa crisis de VIH/SIDA del país, acompañadas de un gasto en salud bajo (log = 4.88) y anemia materna del 32.6%. Dado que estos tres países presentan valores extremos que podrían distorsionar las estimaciones del modelo, se decidió excluirlos del análisis y reajustar el modelo con las 53 observaciones restantes.

Para mejorar el cumplimiento de los supuestos y evitar que estos valores extremos distorsionaran el modelo, se decidió excluir estos países del análisis, ajustando el modelo final con los datos restantes.

6 Modelo final sin outliers

## 
## Call:
## lm(formula = exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + 
##     inseg_alim + mort_materna + gasto_salud + ingreso_pc + continente, 
##     data = base_modelo2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.2426 -1.4964 -0.0475  1.8822  3.8352 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             71.7656371  6.1815057  11.610  7.7e-15 ***
## parto_Profesional_salud  0.1241850  0.0602771   2.060  0.04546 *  
## anemia_madre            -0.2134729  0.0819764  -2.604  0.01260 *  
## inseg_alim              -0.0922062  0.0753982  -1.223  0.22802    
## mort_materna            -2.8867104  1.4301503  -2.018  0.04981 *  
## gasto_salud              0.0007660  0.0002583   2.965  0.00492 ** 
## ingreso_pc              -0.1701274  0.1480298  -1.149  0.25679    
## continenteAmericas      -2.0550210  1.7229422  -1.193  0.23951    
## continenteAsia-Oceania  -1.4312665  1.5552275  -0.920  0.36255    
## continenteEurope        -1.8941499  1.6885616  -1.122  0.26819    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.36 on 43 degrees of freedom
## Multiple R-squared:  0.8819, Adjusted R-squared:  0.8572 
## F-statistic: 35.69 on 9 and 43 DF,  p-value: < 2.2e-16

El modelo ajustado sin outliers presenta un R² ajustado de 0.8572, lo que indica que aproximadamente el 85.7% de la variabilidad en la esperanza de vida al nacer es explicada por las variables incluidas.

Además, el test global del modelo (F-statistic = 35.69, p < 2.2e-16) indica que el modelo es estadísticamente significativo en su conjunto.

7 Validacion de supuestos

7.1 Linealidad

A partir de los gráficos de residuos frente a las variables explicativas, se observa que, tras la eliminación de outliers, los residuos presentan una dispersión más aleatoria alrededor de cero.

Aunque persisten ligeras curvaturas en variables como mortalidad materna, gasto en salud e inseguridad alimentaria, estas son considerablemente menores en comparación con el modelo inicial.

En general, no se identifican patrones sistemáticos fuertes, por lo que el supuesto de linealidad puede considerarse razonablemente cumplido.

7.2 Normalidad

## 
##  Shapiro-Wilk normality test
## 
## data:  modelo3_sinLog$residuals
## W = 0.97608, p-value = 0.363

La normalidad de los residuos se evaluó mediante el test de Shapiro-Wilk y el gráfico Q-Q.

El test de Shapiro-Wilk arroja un p-value = 0.363 (> 0.05), por lo que no se rechaza la hipótesis nula de normalidad.

Adicionalmente, el gráfico Q-Q muestra una adecuada alineación de los puntos con la recta teórica, con ligeras desviaciones en los extremos.

En conjunto, se concluye que los residuos pueden considerarse aproximadamente normales.

7.3 Homocedasticidad

## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3_sinLog
## BP = 4.5955, df = 9, p-value = 0.8681

La homocedasticidad de los residuos se evaluó mediante el test de Breusch-Pagan.

El test arroja un p-value = 0.8681 (> 0.05), por lo que no se rechaza la hipótesis nula de varianza constante.

En consecuencia, no hay evidencia de heterocedasticidad, indicando que el supuesto de homocedasticidad se cumple.

7.4 Multicolinealidad

##                             GVIF Df GVIF^(1/(2*Df))
## parto_Profesional_salud 4.048637  1        2.012123
## anemia_madre            7.421426  1        2.724229
## inseg_alim              1.724207  1        1.313091
## mort_materna            7.857544  1        2.803131
## gasto_salud             2.541741  1        1.594284
## ingreso_pc              1.932481  1        1.390137
## continente              6.910201  3        1.380114

La multicolinealidad se evaluó mediante el Factor de Inflación de la Varianza (VIF).

Ninguna variable presenta valores críticos (≈10). Aunque variables como anemia materna y mortalidad materna muestran valores moderados, estos no representan un problema grave.

En consecuencia, no se evidencia multicolinealidad severa en el modelo.

7.5 Independencia

## 
##  Durbin-Watson test
## 
## data:  modelo3_sinLog
## DW = 2.5113, p-value = 0.9711
## alternative hypothesis: true autocorrelation is greater than 0

La independencia de los residuos se evaluó mediante el test de Durbin-Watson.

El estadístico DW = 2.5113, cercano a 2, junto con un p-value = 0.9711 (> 0.05), indica que no se rechaza la hipótesis nula de no autocorrelación.

En consecuencia, no hay evidencia de autocorrelación en los residuos y se cumple el supuesto de independencia.

8 Intervalos de confianza

##                                 2.5 %       97.5 %
## (Intercept)             59.2994428461 84.231831307
## parto_Profesional_salud  0.0026246402  0.245745329
## anemia_madre            -0.3787940692 -0.048151683
## inseg_alim              -0.2442611389  0.059848644
## mort_materna            -5.7708833976 -0.002537432
## gasto_salud              0.0002450135  0.001286895
## ingreso_pc              -0.4686579744  0.128403145
## continenteAmericas      -5.5296651141  1.419623178
## continenteAsia-Oceania  -4.5676816542  1.705148749
## continenteEurope        -5.2994589196  1.511159067

Los intervalos de confianza al 95% para los coeficientes del modelo dan una idea de la precisión de las estimaciones. En general:

  • Variables significativas: Aquellas cuyo intervalo de confianza no incluye el cero, como mort_materna y gasto_salud, tienen un impacto relevante en la esperanza de vida al nacer. Por ejemplo, un aumento en la mortalidad materna reduce significativamente la esperanza de vida al nacer, mientras que un aumento en el gasto en salud incrementa la esperanza de vida.

  • Variables no significativas: Variables como inseg_alim, parto_Profesional_salud, ingreso_pc, y las variables de continente tienen intervalos que incluyen el cero, lo que sugiere que no tienen un impacto estadísticamente significativo en la esperanza de vida al nacer en este modelo.

En resumen, los intervalos de confianza nos permiten identificar qué variables son más confiables y tienen un impacto importante, y cuáles no presentan un efecto significativo sobre el resultado.

En la gráfica se comparan los valores observados de la variable dependiente con los valores predichos por el modelo, junto con sus intervalos de predicción.

Se observa que la mayoría de los puntos se ubican cercanos a la línea de 45 grados, lo que indica un buen ajuste del modelo.

Adicionalmente, los valores observados se encuentran en su mayoría dentro de los intervalos de predicción, lo que sugiere una adecuada capacidad predictiva.

9 Anova

## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ 1
## Model 2: exp_vida_nacer ~ mort_materna
##   Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
## 1     52 2028.99                                  
## 2     51  670.04  1      1359 103.44 7.228e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ mort_materna
## Model 2: exp_vida_nacer ~ mort_materna + gasto_salud
##   Res.Df    RSS Df Sum of Sq      F   Pr(>F)    
## 1     51 670.04                                 
## 2     50 317.56  1    352.48 55.499 1.19e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ mort_materna + gasto_salud
## Model 2: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)  
## 1     50 317.56                              
## 2     49 299.41  1    18.149 2.9702 0.09112 .
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud
## Model 2: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre
##   Res.Df    RSS Df Sum of Sq      F  Pr(>F)   
## 1     49 299.41                               
## 2     48 259.99  1    39.414 7.2766 0.00961 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre
## Model 2: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre + inseg_alim
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     48 259.99                           
## 2     47 255.14  1    4.8539 0.8941 0.3492
## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre + inseg_alim
## Model 2: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre + inseg_alim + ingreso_pc
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     47 255.14                           
## 2     46 248.15  1     6.992 1.2961 0.2608
## Analysis of Variance Table
## 
## Model 1: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre + inseg_alim + ingreso_pc
## Model 2: exp_vida_nacer ~ mort_materna + gasto_salud + parto_Profesional_salud + 
##     anemia_madre + inseg_alim + ingreso_pc + continente
##   Res.Df    RSS Df Sum of Sq      F Pr(>F)
## 1     46 248.15                           
## 2     43 239.55  3    8.6004 0.5146 0.6744

De los resultados de ANOVA para los diferentes modelos ajustados, se pueden hacer las siguientes conclusiones:

  • Modelo 1 vs. Modelo 2 (incorporando mort_materna): El valor p = 7.23e-14 indica que la inclusión de la variable mortalidad materna mejora significativamente el modelo, es decir, la mortalidad materna tiene un impacto relevante en la esperanza de vida al nacer.

  • Modelo 2 vs. Modelo 3 (incorporando gasto_salud): El valor p = 1.19e-09 sugiere que la adición de la variable gasto en salud mejora el modelo significativamente. Esto implica que el gasto en salud tiene un impacto importante en la esperanza de vida al nacer.

  • Modelo 3 vs. Modelo 4 (incorporando parto_Profesional_salud): El valor p = 0.09112 es mayor que 0.05, lo que sugiere que la inclusión de parto_Profesional_salud no mejora significativamente el modelo. Por lo tanto, parto_Profesional_salud no tiene un impacto relevante en la predicción de la esperanza de vida al nacer en este modelo.

  • Modelo 4 vs. Modelo 5 (incorporando anemia_madre): El valor p = 0.00961 es menor que 0.05, indicando que anemia_madre mejora significativamente el modelo y tiene un efecto relevante sobre la esperanza de vida al nacer.

  • Modelo 5 vs. Modelo 6 (incorporando ingreso_pc): El valor p = 0.2608 es mayor que 0.05, lo que sugiere que la inclusión de ingreso_pc no mejora el modelo significativamente. En este caso, ingreso_pc no tiene un impacto relevante.

  • Modelo 6 vs. Modelo 7 (incorporando continente): El valor p = 0.6744 es mayor que 0.05, lo que indica que la inclusión de la variable continente no mejora el modelo. Esto sugiere que la variable continente no tiene un impacto significativo en la esperanza de vida al nacer en este análisis.

En general, los resultados de ANOVA sugieren que mort_materna, gasto_salud y anemia_madre son variables significativas en la predicción de la esperanza de vida al nacer, mientras que parto_Profesional_salud, ingreso_pc y continente no contribuyen significativamente al modelo.

10 Modelo Optimo

## Start:  AIC=99.95
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + inseg_alim + 
##     mort_materna + gasto_salud + ingreso_pc + continente
## 
##                           Df Sum of Sq    RSS     AIC
## - continente               3     8.600 248.15  95.818
## - ingreso_pc               1     7.358 246.91  99.552
## - inseg_alim               1     8.332 247.88  99.761
## <none>                                 239.55  99.949
## - mort_materna             1    22.697 262.25 102.746
## - parto_Profesional_salud  1    23.646 263.19 102.938
## - anemia_madre             1    37.777 277.33 105.710
## - gasto_salud              1    48.982 288.53 107.809
## 
## Step:  AIC=95.82
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + inseg_alim + 
##     mort_materna + gasto_salud + ingreso_pc
## 
##                           Df Sum of Sq    RSS     AIC
## - inseg_alim               1     6.259 254.41  95.138
## - ingreso_pc               1     6.992 255.14  95.291
## <none>                                 248.15  95.818
## - parto_Profesional_salud  1    19.663 267.81  97.860
## - mort_materna             1    25.455 273.60  98.994
## + continente               3     8.600 239.55  99.949
## - anemia_madre             1    31.862 280.01 100.220
## - gasto_salud              1    73.587 321.74 107.582
## 
## Step:  AIC=95.14
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + mort_materna + 
##     gasto_salud + ingreso_pc
## 
##                           Df Sum of Sq    RSS     AIC
## - ingreso_pc               1     5.587 259.99  94.290
## <none>                                 254.41  95.138
## + inseg_alim               1     6.259 248.15  95.818
## - parto_Profesional_salud  1    18.330 272.74  96.825
## - anemia_madre             1    28.848 283.26  98.831
## + continente               3     6.527 247.88  99.761
## - mort_materna             1    34.549 288.96  99.887
## - gasto_salud              1   100.216 354.62 110.740
## 
## Step:  AIC=94.29
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + mort_materna + 
##     gasto_salud
## 
##                           Df Sum of Sq    RSS     AIC
## <none>                                 259.99  94.290
## + ingreso_pc               1     5.587 254.41  95.138
## + inseg_alim               1     4.854 255.14  95.291
## - parto_Profesional_salud  1    22.419 282.41  96.673
## - mort_materna             1    29.679 289.67  98.018
## + continente               3     4.140 255.85  99.439
## - anemia_madre             1    39.414 299.41  99.770
## - gasto_salud              1   104.387 364.38 110.179
## 
## Call:
## lm(formula = exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + 
##     mort_materna + gasto_salud, data = base_modelo2)
## 
## Coefficients:
##             (Intercept)  parto_Profesional_salud             anemia_madre  
##              68.7113660                0.1165231               -0.1738143  
##            mort_materna              gasto_salud  
##              -2.9604488                0.0009701

El mejor modelo fue seleccionado utilizando el criterio AIC a través de un proceso de selección stepwise. El modelo final tiene un AIC de 94.29, lo que indica que es el mejor modelo en cuanto al ajuste y la complejidad, considerando las variables incluidas.

Este modelo incluye las siguientes variables:

  • parto_Profesional_salud: El coeficiente de 0.1165 sugiere que, a medida que aumenta el porcentaje de nacimientos atendidos por profesionales de salud, la esperanza de vida al nacer aumenta.

  • anemia_madre: El coeficiente de -0.1738 indica que a medida que aumenta el porcentaje de mujeres embarazadas con anemia, la esperanza de vida al nacer disminuye.

  • mort_materna: El coeficiente de -2.9604 muestra que un aumento en la mortalidad materna está asociado con una disminución significativa en la esperanza de vida al nacer.

  • gasto_salud: El coeficiente de 0.0009701 sugiere que un aumento en el gasto en salud está asociado con un pequeño aumento en la esperanza de vida al nacer.

Este modelo es el que mejor explica la variabilidad de la esperanza de vida al nacer, ya que tiene el AIC más bajo comparado con otros modelos evaluados durante el proceso de selección.

## Start:  AIC=99.95
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + inseg_alim + 
##     mort_materna + gasto_salud + ingreso_pc + continente
## 
##                           Df Sum of Sq    RSS     AIC
## - continente               3     8.600 248.15  95.818
## - ingreso_pc               1     7.358 246.91  99.552
## - inseg_alim               1     8.332 247.88  99.761
## <none>                                 239.55  99.949
## - mort_materna             1    22.697 262.25 102.746
## - parto_Profesional_salud  1    23.646 263.19 102.938
## - anemia_madre             1    37.777 277.33 105.710
## - gasto_salud              1    48.982 288.53 107.809
## 
## Step:  AIC=95.82
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + inseg_alim + 
##     mort_materna + gasto_salud + ingreso_pc
## 
##                           Df Sum of Sq    RSS     AIC
## - inseg_alim               1     6.259 254.41  95.138
## - ingreso_pc               1     6.992 255.14  95.291
## <none>                                 248.15  95.818
## - parto_Profesional_salud  1    19.663 267.81  97.860
## - mort_materna             1    25.455 273.60  98.994
## + continente               3     8.600 239.55  99.949
## - anemia_madre             1    31.862 280.01 100.220
## - gasto_salud              1    73.587 321.74 107.582
## 
## Step:  AIC=95.14
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + mort_materna + 
##     gasto_salud + ingreso_pc
## 
##                           Df Sum of Sq    RSS     AIC
## - ingreso_pc               1     5.587 259.99  94.290
## <none>                                 254.41  95.138
## + inseg_alim               1     6.259 248.15  95.818
## - parto_Profesional_salud  1    18.330 272.74  96.825
## - anemia_madre             1    28.848 283.26  98.831
## + continente               3     6.527 247.88  99.761
## - mort_materna             1    34.549 288.96  99.887
## - gasto_salud              1   100.216 354.62 110.740
## 
## Step:  AIC=94.29
## exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + mort_materna + 
##     gasto_salud
## 
##                           Df Sum of Sq    RSS     AIC
## <none>                                 259.99  94.290
## + ingreso_pc               1     5.587 254.41  95.138
## + inseg_alim               1     4.854 255.14  95.291
## - parto_Profesional_salud  1    22.419 282.41  96.673
## - mort_materna             1    29.679 289.67  98.018
## + continente               3     4.140 255.85  99.439
## - anemia_madre             1    39.414 299.41  99.770
## - gasto_salud              1   104.387 364.38 110.179
## 
## Call:
## lm(formula = exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + 
##     mort_materna + gasto_salud, data = base_modelo2)
## 
## Coefficients:
##             (Intercept)  parto_Profesional_salud             anemia_madre  
##              68.7113660                0.1165231               -0.1738143  
##            mort_materna              gasto_salud  
##              -2.9604488                0.0009701
## 
## Call:
## lm(formula = exp_vida_nacer ~ parto_Profesional_salud + anemia_madre + 
##     mort_materna + gasto_salud, data = base_modelo2)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.5510 -1.6017  0.1217  1.7632  4.1333 
## 
## Coefficients:
##                           Estimate Std. Error t value Pr(>|t|)    
## (Intercept)             68.7113660  5.8061321  11.834 7.72e-16 ***
## parto_Profesional_salud  0.1165231  0.0572750   2.034  0.04745 *  
## anemia_madre            -0.1738143  0.0644349  -2.698  0.00961 ** 
## mort_materna            -2.9604488  1.2647303  -2.341  0.02345 *  
## gasto_salud              0.0009701  0.0002210   4.390 6.21e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.327 on 48 degrees of freedom
## Multiple R-squared:  0.8719, Adjusted R-squared:  0.8612 
## F-statistic: 81.65 on 4 and 48 DF,  p-value: < 2.2e-16

11 Comparación de coeficientes y significancia entre modelos

Comparación de coeficientes y significancia entre modelos
Variable Modelo inicial (Estimate) p-valor inicial Modelo transformado (Estimate) p-valor transformado Modelo final (Estimate) p-valor final
(Intercept) 70.543 0.000 60.168 0.000 71.766 0.000
parto_Profesional_salud 0.078 0.312 -0.053 0.407 0.124 0.045
anemia_madre -0.054 0.592 0.044 0.584 -0.213 0.013
inseg_alim -0.135 0.143 -0.039 0.606 -0.092 0.228
ingreso_pc -0.181 0.280 0.041 0.773 -0.170 0.257
continenteAmericas -0.053 0.980 2.058 0.242 -2.055 0.240
continenteAsia-Oceania 0.098 0.961 0.811 0.635 -1.431 0.363
continenteEurope 0.763 0.724 -1.623 0.391 -1.894 0.268
log_mort_materna NA NA -3.247 0.000 NA NA
log_gasto_salud NA NA 1.574 0.011 NA NA

Al comparar los tres modelos, se observa lo siguiente:

El modelo inicial muestra algunas variables no significativas (p > 0.05), como parto_Profesional_salud, anemia_madre e inseg_alim. Tras transformar variables (logaritmos de mortalidad materna y gasto en salud), los coeficientes de estas variables transformadas se vuelven altamente significativos (log_mort_materna p < 0.001, log_gasto_salud p = 0.011), mostrando un mayor impacto en la esperanza de vida. En el modelo final (sin variables logaritmizadas y eliminando outliers), algunas variables que no eran significativas en los modelos anteriores ahora muestran significancia: parto_Profesional_salud y anemia_madre se vuelven estadísticamente significativas, indicando que su efecto sobre la esperanza de vida se hace más claro al ajustar por outliers. Otros coeficientes cambian de signo o magnitud, por ejemplo continenteAmericas pasa de positivo en el modelo transformado a negativo en el final, reflejando cómo la exclusión de países con valores extremos puede alterar la interpretación regional. En general, los cambios en los coeficientes entre modelos reflejan cómo la transformación de variables y la exclusión de outliers afectan tanto la magnitud como la significancia de los efectos, permitiendo identificar mejor las variables realmente influyentes en la esperanza de vida.

12 Predicción bajo Escenarios Hipotéticos de Intervención en Salud

En esta sección se utilizan los resultados del modelo ajustado para realizar predicciones bajo distintos escenarios hipotéticos relacionados con políticas de salud.

El objetivo es evaluar cómo cambios en variables clave, como el gasto en salud, la mortalidad materna, el acceso a parto profesional en salud y la anemia materna, podrían impactar la esperanza de vida al nacer.

Este análisis permite interpretar el modelo en términos prácticos y explorar posibles efectos de intervenciones en el ámbito de la salud pública.

## # A tibble: 1 × 5
##   pais     parto_Profesional_salud anemia_madre mort_materna gasto_salud
##   <chr>                      <dbl>        <dbl>        <dbl>       <dbl>
## 1 Colombia                    98.4         25.9        0.109        526.
## # A tibble: 1 × 1
##   anemia_promedio_europa
##                    <dbl>
## 1                   21.1
##              Escenario   Anemia Exp_vida_pred  Lim_inf  Lim_sup
## 1      Colombia actual 25.90000      75.86221 71.10620 80.61822
## 2 Anemia nivel europeo 21.14091      76.68941 71.85833 81.52049

Si Colombia redujera la anemia materna del 25.9% al promedio europeo (21.1%), el modelo predice un aumento en la esperanza de vida de 75.86 a 76.69 años, una ganancia de 0.83 años, con un intervalo de predicción al 95% de [71.86, 81.52]. Aunque el cambio proviene de modificar una sola variable (ceteris paribus), evidencia que intervenciones focalizadas en nutrición materna podrían tener un impacto positivo y medible sobre la esperanza de vida.

## # A tibble: 5 × 2
##   pais    anemia_madre
##   <chr>          <dbl>
## 1 France          14.4
## 2 Germany         15.4
## 3 Finland         15.4
## 4 Iceland         15.5
## 5 Spain           16.6
##                         Escenario Anemia Exp_vida_pred  Lim_inf  Lim_sup
## 1         Colombia actual (25.9%)  25.90      75.86221 71.10620 80.61822
## 2 Anemia promedio europeo (21.1%)  21.14      76.68941 71.85833 81.52049
## 3     Anemia como Francia (14.4%)  14.40      77.86108 72.79552 82.92664

El modelo permite evaluar el impacto progresivo de reducir la anemia materna en Colombia. Bajo el escenario actual (25.9%), la esperanza de vida predicha es de 75.86 años. Si se alcanzara el promedio europeo (21.1%), aumentaría a 76.69 años (+0.83), y si se lograra el nivel de Francia (14.4%), llegaría a 77.86 años (+2.0). Esto sugiere que una reducción de 11.5 puntos porcentuales en anemia materna, manteniendo todo lo demás constante, se asocia con una ganancia de aproximadamente 2 años de esperanza de vida, reforzando la importancia de las políticas de nutrición materna como herramienta de salud pública.

13 Conclusiones

El presente estudio analizó los determinantes de la esperanza de vida al nacer en 56 países durante el año 2018, utilizando datos de los Indicadores de Desarrollo Mundial del Banco Mundial. Mediante la estimación, diagnóstico y comparación de varios modelos de regresión lineal múltiple, se llegó a las siguientes conclusiones:

  • El modelo óptimo, seleccionado mediante el criterio AIC a través de un proceso stepwise (AIC = 94.29), identificó cuatro variables como predictores significativos de la esperanza de vida al nacer: mortalidad materna, gasto en salud per cápita, anemia materna y porcentaje de partos atendidos por profesionales de salud. De estas, la mortalidad materna resultó ser el predictor con mayor impacto negativo (coeficiente = −2.96), seguida por la anemia materna (coeficiente = −0.17), mientras que el gasto en salud (coeficiente = 0.00097) y la atención profesional del parto (coeficiente = 0.12) mostraron efectos positivos sobre la esperanza de vida.

  • El proceso de modelación evidenció la importancia del diagnóstico de observaciones influyentes. La exclusión de tres países atípicos — Estados Unidos, Gambia y Lesotho — permitió mejorar sustancialmente el cumplimiento de los supuestos del modelo. En particular, la prueba de normalidad de Shapiro-Wilk pasó de rechazar la hipótesis nula (p = 0.017) a no rechazarla (p = 0.363), y los supuestos de homocedasticidad (Breusch-Pagan, p = 0.868), independencia (Durbin-Watson, DW = 2.51, p = 0.971) y ausencia de multicolinealidad severa (todos los VIF < 8) se cumplieron satisfactoriamente.

  • La comparación entre los tres modelos ajustados — inicial, con transformaciones logarítmicas y final sin outliers reveló que la exclusión de observaciones influyentes fue más efectiva que la transformación logarítmica para lograr que variables como parto profesional y anemia materna alcanzaran significancia estadística. El modelo final sin outliers obtuvo un R² ajustado de 0.857, indicando que aproximadamente el 85.7% de la variabilidad en la esperanza de vida es explicada por las cuatro variables del modelo óptimo.

  • El análisis ANOVA secuencial confirmó que la mortalidad materna es la variable que más variabilidad explica (F = 103.44, p < 0.001), seguida por el gasto en salud (F = 55.50, p < 0.001) y la anemia materna (F = 7.28, p = 0.010). Variables como inseguridad alimentaria, ingreso per cápita y continente no aportaron mejoras significativas al modelo y fueron excluidas en el proceso de selección.

  • Las predicciones bajo escenarios hipotéticos demostraron que el modelo tiene aplicaciones prácticas para la evaluación de políticas de salud pública. Para Colombia, una reducción de la anemia materna del 25.9% al nivel promedio europeo (21.1%) se asoció con un incremento predicho de 0.83 años en la esperanza de vida, y alcanzar el nivel de Francia (14.4%) generaría una ganancia de aproximadamente 2 años, manteniendo las demás variables constantes (ceteris paribus). Estos resultados refuerzan la importancia de las intervenciones en nutrición materna como herramienta de salud pública.

  • Es importante señalar algunas limitaciones del estudio. La muestra de 56 países y el diseño de corte transversal (un solo año) limitan la generalización de los resultados y no permiten establecer relaciones de causalidad. Además, la posible endogeneidad entre variables como mortalidad materna y esperanza de vida sugiere cautela en la interpretación de los coeficientes como efectos causales directos.

  • En síntesis, el análisis permite concluir que la mortalidad materna, la anemia materna, el gasto en salud y la atención profesional del parto son los factores más relevantes para explicar las diferencias en la esperanza de vida entre países, y que intervenciones focalizadas en estos indicadores de salud materna pueden tener un impacto positivo y medible sobre la longevidad de la población.

14 Bibliografía