1. Descripción

La tasa de mortalidad infantil es el indicador demográfico que señala el número de defunciones de niños en una población de cada mil nacimientos vivos registrados, durante el primer año de su vida.

La consideración del primer año de vida para establecer la tasa de mortalidad infantil se debe a que el primer año de vida es el más crítico en la supervivencia del ser humano, cuando se sobrepasa el primer año de nacimiento, las probabilidades de supervivencia aumentan drásticamente.

En Argentina se ha registrado un decrecimiento en la tasa de mortalidad infantil debido a diversos factores como la implementación de políticas de salubridad, el decrecimiento en el número de embarazos en adolescentes, entre otros. Es importante la implementación de modelos que expliquen el comportamiento de la tasa de mortalidad infantil en Argentina para tener una estimación de tal índice en años supsecuentes y saber si hay que tomar medidas para controlarlo.

1.2 Descripción de las variables

Tasa de Mortalidad Infantil en el primer año de nacido por mil nacidos vivos con jurisdicción de residencia de la madre ocurridos en la República Argentina. La base contiene 24 provincias diferentes de Argentina y 29 periodos diferentes (desde 1990-01-01 hasta 2018-01-01), por cada combinanción de provincia-periodo hay un valor para la tasa de mortalidad infantil.

1.3 Vista de la base de datos

2. Objetivos

2.1 Objetivos generales

  1. Encontrar el mejor modelo predictivo que explique la tasa de mortalidad infantil a lo largo del tiempo en la República Argentina discriminando por las diferentes provincias del país.

  2. Exhibir la utilidad e importancia de los modelos mixtos cuando se tienen datos agrupados.

2.2 Objetivos específicos

  1. Encontrar posibles curvaturas en los diagramas de disperisión.

  2. Crear modelos preditivos en base al análisis descriptivo.

  3. Probar la significancia de los efectos aleatorios en el modelo.

  4. Probar la significancia de los efectos fijos en el modelo.

  5. Comparar los modelos predictivos y escoger el mejor modelo mediante pruebas de hipótesis.

3. Análisis descriptivo

Siempre es útil comenzar la exploración de los datos creando gráficos de disperción para tener una idea del comportamiento de la variable respuesta, en este caso, de la tasa de mortalidad infantil por mil niños(as) nacidos vivos.

Se observa en la nube de puntos que la tasa de mortalidad conjunta de las provincias de Argentina al parecer decrece conjuntamente. Además, parece que disminuye la variabilidad conforme pasa el tiempo. Por lo que al ajustar un modelo de regresíon líneal clásico a la tasa de mortalidad conjunta de las provincias, puede que exitan problemas con el supuesto de varianza constante.

Se procede a crear un grafico de dispersión diferente por cada provincia, para análisar de mejor manera el comportamiento individual de la tasa de mortalidad en cada provincia.

En la figura anterior se observa que la nueve de puntos en cada una de las provincias efectivamente es decreciente, pero en Tucuman existe un incremento en la tasa de mortalidad al rededor del periodo 10 que es 1999-01-01. En corrientes hay un valor de la tasa de mortalidad que se sale de la tendencia de la nube de puntos en el periodo 11 que es 2000-01-01.

También se observa que los interceptos son diferentes en cada provincia, por lo que la creación de modelos mixtos puede ser beneficiosa para explicar el comportamiento de la tasa de mortalidad infantil en Argentina.

En algunas provincias se nota una posible curvatura en la nube de puntos, por ejemplo en Santa fe, Santiago del estefero, Tierra del fuego. Por lo que sería interesante incluir un polinomio de grado 2 sobre la variable id_periodo. El diagrama de disperisión de Tucuman al tener alrededor de 4 o 5 curvas necesitaría la inclusión de un polinomio grado 4 o 5 para explicar su nube de puntos pero al ser la única provincia con este comportamiento, es necesario consultar con un experto o conocedor del tema para saber que pasó durante esos años en esta provincia.

4. Modelos a considerar

1. Modelo de regresión líneal clásico.

\[mortalidad_{j} \sim N(\mu_{j}, \sigma^2)\]

\[\mu_j = \beta_0 + \beta_1 id\_periodo_{j}\]

\[j = 1,~2, ...,~ 29\]

2. Modelo de regresión líneal mixto con intercepto aleatorio

\[mortalidad_{ij} \sim N(\mu_{ij}, \sigma^2)\] \[\mu_{ij} = \beta_0 + \beta_1 id\_periodo_{ij} + \beta_{0i}\]

\[b_{0} \sim N(0, \sigma^2_{b0})\]

\[i = 1,~2,...,~24. ~~~ j = 1,~2, ...,~ 29\]

3. Modelo de regresión líneal mixto con intercepto y pendiente aleatoria

\[mortalidad_{ij} \sim N(\mu_{ij}, \sigma^2)\]

\[\mu_{ij} = \beta_0 + \beta_1 id\_periodo_{ij} + \beta_{0i} + \beta_{1i} ~id\_periodo_{ij}\]

\[ {b_0 \choose b_1} \sim N \left({0 \choose 0},{\sigma^2_{b0} \ \ \sigma^2_{b01} \choose \sigma^2_{b01} \ \ \sigma^2_{b1}} \right)\]

\[i = 1,~2,...,~24. ~~~ j = 1,~2, ...,~ 29\]

4. Modelo de regresión líneal mixto con intercepto y pediente aleatoria. Además con un término cuadrático que acompaña a los efectos fijos.

\[mortalidad_{ij} \sim N(\mu_{ij}, \sigma^2)\]

\[\mu_{ij} = \beta_0 + \beta_1 id\_periodo_{ij} + \beta_2 id\_periodo_{ij}^2 + \beta_{0i} + \beta_{1i} ~id\_periodo_{ij}\]

\[ {b_0 \choose b_1} \sim N \left({0 \choose 0},{\sigma^2_{b0} \ \ \sigma^2_{b01} \choose \sigma^2_{b01} \ \ \sigma^2_{b1}} \right)\]

\[i = 1,~2,...,~24. ~~~ j = 1,~2, ...,~ 29\]

5. Modelo de regresión líneal mixto con intercepto y pediente aleatoria. Además con un término cuadrático y otro cúbico que acompaña a los efectos fijos.

\[mortalidad_{ij} \sim N(\mu_{ij}, \sigma^2)\]

\[\mu_{ij} = \beta_0 + \beta_1 id\_periodo_{ij} + \beta_2 id\_periodo_{ij}^2 + \beta_3 id\_periodo_{ij}^3 + \beta_{0i} + \beta_{1i} ~id\_periodo_{ij}\]

\[ {b_0 \choose b_1} \sim N \left({0 \choose 0},{\sigma^2_{b0} \ \ \sigma^2_{b01} \choose \sigma^2_{b01} \ \ \sigma^2_{b1}} \right)\]

\[i = 1,~2,...,~24. ~~~ j = 1,~2, ...,~ 29\]

5. Construccción de modelos

Se procede con la contrucción de los modelos de regresión definidos en la sección 4., para esto se utiliza el paquetes nlme que está horientado a la creación y manipulación de modelos de efectos mixtos con respuesta normalmente distribuida.

# Modelo 1
mod1 <- gls(mortalidad ~ 1 + id_periodo, data = dt_mortal)

# Modelo 2
mod2 <- lme(mortalidad ~ 1 + id_periodo, random =~ 1 | provincia,
             data = dt_mortal)

# Modelo 3
mod3 <- lme(mortalidad ~ 1 + id_periodo, random=~ 1 + id_periodo | provincia,
             data = dt_mortal)

# Modelo 3 hallado con el metodo de Máxima verosimilud no restringido para las comparaciones de los efectos fijos
mod3.2 <- lme(mortalidad ~ 1 + id_periodo, random=~ 1 + id_periodo | provincia,
             method = "ML", data = dt_mortal)

# Modelo 4
mod4 <- lme(mortalidad ~ 1 + id_periodo + I(id_periodo^2), random=~ 1 + id_periodo | provincia,
             data = dt_mortal)

# Modelo 4 hallado con el metodo de Máxima verosimilud no restringido para las comparaciones de los efectos fijos
mod4.2 <- lme(mortalidad ~ 1 + id_periodo + I(id_periodo^2), random=~ 1 + id_periodo | provincia,
             method = "ML",data = dt_mortal)

# Modelo 5
mod5 <- lme(mortalidad ~ 1 + id_periodo + I(id_periodo^2) + I(id_periodo^3),
            random=~ 1 + id_periodo | provincia, data = dt_mortal)

# Modelo 5 hallado con el metodo de Máxima verosimilud no restringido para las comparaciones de los efectos fijos
mod5.2 <- lme(mortalidad ~ 1 + id_periodo + I(id_periodo^2) + I(id_periodo^3),
            random=~ 1 + id_periodo | provincia,
             method = "ML",data = dt_mortal)

# Añadir valores ajustados a la base de datos
dt_mortal$pred1 <- predict(mod1, type = 'response', newdata = dt_mortal)
dt_mortal$pred2 <- predict(mod2, type = 'response', newdata = dt_mortal)
dt_mortal$pred3 <- predict(mod3, type = 'response', newdata = dt_mortal)
dt_mortal$pred4 <- predict(mod4, type = 'response', newdata = dt_mortal)
dt_mortal$pred5 <- predict(mod5, type = 'response', newdata = dt_mortal)

6. Comparación de modelos

6.1 Pruebas de hipótesis sobre componentes de varianza

Nota: Cabe aclarar que para probar la significancia de los efectos aleatorios, los modelos deben ser ajustados por el método de Máxima versimilitud restringido.

6.1.1 Prueba de Híporesis para la significancia de la componente de varianza de los interceptos aleatorios

\[H_{0}: \sigma^2_{b0} = 0 ~~~ vs ~~~ H_{1}: \sigma^2_{b0} > 0\] Estadístico de prueba: \(lrt= -2 \times (logLik(modelo ~1) - logLik(modelo ~2))\)

Donde \(lrt \sim \chi_1^2\)

Se rechaza \(H_{0}\) con un nivel de significancia de 0.05 si \(P(\chi_1^2 > lrt) < 0.05\)

Se puede realizar la prueba para esta componente de varianza mediante una tabla anova, pero es una prueba conservativa, entonces hay que tener cuidado con Valores-P grandes.

De la tabla anterior se tiene que \(lrt = 667.1689\) y \(P(\chi_1^2 > lrt) < 0.0001\) por lo que se rechaza la hipótesis nula y se tiene que la componente de varianza para el intercepto aleatorio es significativa y contribuye a la explicación de la tasa de mortalidad infantil de las provincias de Argentina.

6.1.2 Prueba de Híporesis para la significancia de la componente de varianza de las pendientes aleatorias y la componente de covarianza entre interceptos y pendientes aleatorias.

\[H_{0}: {\sigma^2_{b0} \ \ \sigma^2_{b01} \choose \sigma^2_{b01} \ \ \sigma^2_{b1}} = {\sigma^2_{b0} \ \ 0 \choose 0 \ \ ~~0} ~~~ vs ~~~ H_{1}: {\sigma^2_{b0} \ \ \sigma^2_{b01} \choose \sigma^2_{b01} \ \ \sigma^2_{b1}} = {\sigma^2_{b0}~~~~~~ \ \ \sigma^2_{b01} \neq 0 \choose \sigma^2_{b01} \neq0 \ \ \sigma^2_{b1}>0 }\] Estadístico de prueba: \(lrt= -2 \times (logLik(mododelo ~2) - logLik(modelo~3))\)

Donde \(lrt \sim \chi_2^2\)

Se rechaza \(H_{0}\) con un nivel de significancia de 0.05 si \(P(\chi_2^2 > lrt) < 0.05\)

Se puede realizar la prueba para este componente de varianza mediante una tabla anova, pero es una prueba conservativa, entonces hay que tener cuidado con Valores-P grandes.

De la tabla anterior se tiene que \(lrt = 225.8864\) y \(P(\chi_2^2 > lrt) < 0.0001\) por lo que se rechaza la hipótesis nula y se tiene que la componente de varianza para la pendiente aleatoria, además de la componente de covarianza entre el intecpeto y la pendiente aleatoria son significativas, por lo tanto contribuyen a la explicación de la tasa de mortalidad infantil de la provincias de Argentina.

6.2 Pruebas de hipótesis sobre los efectos fijos

Nota: Cabe aclarar que para probar la significancia de los efectos fijos, los modelos deben ser ajustados por el método de Máxima versimilitud no restringido.

6.2.1 Prueba de Híporesis para la significancia de la componente cuadrática de la covariable id_periodo

\[H_{0}: b_{2} = 0 ~~~ vs ~~~ H_{1}: b_{2} \neq 0\]

Estadístico de prueba: \(lrt= -2 \times (logLik(mododelo ~3) - logLik(modelo~4))\)

Donde \(lrt \sim \chi_1^2\)

Se rechaza \(H_{0}\) con un nivel de significancia de 0.05 si \(Valor-P=P(\chi_1^2 > lrt) < 0.05\)

Se puede realizar la prueba para este componente de varianza mediante una tabla anova, pero es una prueba anticonservativa, es decir, arroja Valores-P más pequeños de lo que en verdad son, entonces hay que tener cuidado con Valores-P pequeños.

Se tiene que \(lrt=117.6657\) y se nota que el Valor-P de la prueba es extremadamente pequeño, entonces puede que el verdadero Valor-P sea menor que 0.05. Aun así se procede a usar simulación para obtener un Valor-P más fiel a la realidad.

## [1] 0

Se obtiene un Valor-P aproximadamente igual a cero, por lo que efectivamente se rechaza la hipótesis nula y el factor cuadrático de la variable id_periodo es significativo en el modelo.

6.2.2 Prueba de Híporesis para la significancia de la componente cúbica de la covariable id_periodo

\[H_{0}: b_{3} = 0 ~~~ vs ~~~ H_{1}: b_{3} \neq 0\]

Estadístico de prueba: \(lrt= -2 \times (logLik(mododelo ~4) - logLik(modelo~5))\)

Donde \(lrt \sim \chi_1^2\)

Se rechaza \(H_{0}\) con un nivel de significancia de 0.05 si \(Valor-P=P(\chi_1^2 > lrt) < 0.05\)

Se puede realizar la prueba para este componente de varianza mediante una tabla anova, pero es una prueba anticonservativa, es decir, arroja Valores-P más pequeños de lo que en verdad son, entonces hay que tener cuidado con Valores-P pequeños.

De la tabla anova se tiene que \(lrt = 0.4256328\) y \(Valor-P=P(\chi_1^2 > lrt)\) es mucho mayor que 0.05, y este Valor-P es más pequeño que el real, entonces sin necesidad de usar simulación se tiene que la componente cúbica en el modelo no es significativa.

7. Análisis de residuales

7.1 Análisis de residuales para el modelo 4

En el gráfico de Residuales vs Valores ajustados, no se observa un patrón obvio por lo que no se evidencia la existencia de carencia de ajuste en el modelo. Por otro lado, tampoco se observan cambios de forma en la nube de puntos, por lo que el supuesto de varianza constante es razonable en el modelo. Aunque también se logran observar algunos puntos atípicos que se encuentran por fuera de la nube de puntos conjunta.

El supuesto de normalidad para los efectos aleatorios también es razonable ya que todos los puntos se encuentran cercanos a la recta de normalidad.

El supuesto de normalidad al parecer tiene problemas, ya que en los extremos varios puntos se alejan de la recta de normalidad. La manera más sencilla de solcionar este problema es aplicar una transformación logaritmica a la variable respuesta, es decir, a la tasa de mortalidad, ajustar de nuevo el modelo con la tasa de mortalidad en escala logaritmica y posteriormente aplicarle la transformación inversa para obterner los valores ajustados.

Para esto se procede a usar el siguiente código:

7.2 Análisis de residuales para el modelo 4 con respuesta transformada

En los gráficos anteriores se evidencia un comportamiento muy similar al que se observó con la variable tasa de mortalidad en su escala original, por lo que se siguen cumpliendo los supuestos anteriormente mencionados. (varianza constante y normalidad para los efectos aleatorios)

Por otro lado, en el gráfico de normalidad parece que se arregló el problema que tenía el modelo 4, el cuál se creó con la tasa de mortalidad en su escala original. Exceptuando algunos puntos en los extremos que parecen datos atípicos, para estar seguros se necesitaría investigar más afondo qué fue lo que pasó en ese periodo y en ese lugar, por el momento se dejará incluido.

8. Mejor Modelo

Mediante las pruebas de hipótesis se concluye que el mejor modelo para ajustar la tasa de mortalidad infantil en Argentina es el modelo 4. Pero en el análisis de residuales se encontró un problema con el supuesto de normalidad sobre la tasa de mortalidad infantil. Por lo tanto, se usa una trasnformación logarítmica sobre la tasa de mortalidad infantil y se crea un modelo sobre esta variable transformada para corregir los supuestos inválidos del modelo 4.

Finalmente el mejor modelo ajustado mediante el método de Máxima verosimilitud restringido es el siguiente:

\[Log[~ \widehat{\mu}_{ij}~]= 3.2924 - 0.0434~ id\_periodo_{ij} + 0.0002~id\_periodo_{ij}^2 + \widehat{\beta}_{0i} + \widehat{\beta}_{1i} ~id\_periodo_{ij}\] \[con ~~\widehat{\mu}_{ij} = \widehat{E}[~Tasa~de~mortalidad~infantil_{ij}~]\]

\[ {b_0 \choose b_1} \sim aprox ~ N \left({0 \choose 0},{0.0703 \ \ \ -0.0018 \choose -0.0018 \ \ 0.00002} \right)\]

\[i = 1,~2,...,~24. ~~~ j = 1,~2, ...\]

Donde \(i\) representa la identificación de las provincias de Argentina observadas en orden alfabetico y \(j\) representa el periodo/año de ocurrencia.

Puede parecer que las componentes de varianza para los efectos aleatorios son pequeñas pero esto es debido a que la tasa de mortalidad infantil con la que se ajustó el modelo está en escala logaritmica.

8.1 Representación gráfica del mejor modelo ajustado y para los demás modelos descritos en esta aplicación

Como se puede observar, el uso de modelos con efectos aleatorios mejora en gran medida las estimaciones para la tasa de mortalidad infantil por mil nacidos vivos en Argentina, así mismo el mejor modelo explica muy bien el comportamiento de este índice.

Mejor Modelo

Modelo 1

Modelo 2

Modelo 3

Modelo 4

Referencias

Freddy Hernández Barajas, Jorge Leonardo López Martínez (2020-03-15). Modelos Mixtos con R. https://fhernanb.github.io/libro_modelos_mixtos/

Andrew Gelman, Jennifer Hill (2007). Data Analysis Using Regression and Multilevel/Hierarchical Models.

Pinheiro J, Bates D, DebRoy S, Sarkar D, R Core Team (2020). nlme: Linear and Nonlinear Mixed Effects Models.

Wickham H, Averick M, Bryan J, Chang W, McGowan LD, François R, Grolemund G, Hayes A, Henry L, Hester J, Kuhn M, Pedersen TL, Miller E, Bache SM, Müller K, Ooms J, Robinson D, Seidel DP, Spinu V, Takahashi K, Vaughan D, Wilke C, Woo K, Yutani H (2019). “Welcome to the tidyverse.” Journal of Open Source Software, 4(43), 1686.

Dongwen Luo, Siva Ganesh and John Koolaard. predictmeans: Providing functions to diagnose and make inferences from various linear models.

