La base de datos personas.csv
disponible en la página
web del curso, corresponde a una muestra aleatoria del módulo de
Personas (para las que el ingreso total está disponible y es mayor que
cero) de la encuesta Medición de Pobreza Monetaria y Desigualdad
2021 llevada a cabo en Colombia por el DANE, la cual se
encuentra disponible en este enlace.
El Universo de la encuesta está conformado por la población civil no institucional, residente en todo el territorio nacional; va dirigida a todos los hogares encontrados en la vivienda. La encuesta utiliza informante directo para las personas de 18 años y más, y para aquellas de 10 a 17 años que trabajen o estén buscando trabajo. Para los demás se acepta informante idóneo (persona del hogar mayor de 18 años, que a falta del informante directo pueda responder correctamente las preguntas). No se acepta información de empleados del servicio doméstico, pensionistas, vecinos o menores, excepto cuando el menor de edad es el jefe del hogar o cónyuge.
El objetivo de este trabajo es construir un modelo multinivel
completamente Bayesiano, tomando como datos de entrenamiento el
ingreso total (ingtot
; ingreso total por
persona que resulta de sumar cada una de las fuentes de ingresos tanto
observadas como imputadas), con el fin de modelar los ingresos por
dominio (dominio
; cada una de las 24 a.M.,
otras cabeceras y resto), y establecer un ranking junto con una
segmentación de los mismos. Por lo tanto, se toma como variable de
agrupamiento el dominio, y como variable respuesta el ingreso total.
Distribución muestral: \[ y_{i,j}\mid\theta,\sigma^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{N}(\theta,\sigma^2)\,, \] para \(i = 1,\ldots,n_j\) y \(j = 1,\ldots,m\), donde \(y_{i,j}\) es la variable respuesta del individuo \(i\) en el grupo \(j\) y \(\textsf{N}(\theta,\sigma^2)\) denota la distribución Normal con media \(\theta\) y varianza \(\sigma^2\).
Distribución previa: \[ \theta\sim\textsf{N}(\mu_0,\gamma_0^2)\,,\quad \sigma^2\sim\textsf{GI}\left(\frac{\nu_0}{2},\frac{\nu_0\sigma^2_0}{2}\right)\,, \] donde \(\mu_0,\gamma_0^2,\nu_0,\sigma^2_0\) son los hiperparámetros del modelo y \(\textsf{GI}(\alpha,\beta)\) denota la distribución Gamma-Inversa con media \(\frac{\beta}{\alpha-1}\), para \(\alpha > 1\), y varianza \(\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}\), para \(\alpha > 2\).
Distribución muestral: \[ y_{i,j}\mid\theta_j,\sigma^2 \,{\stackrel{\text{ind.}}{\sim}}\,\textsf{N}(\theta_j,\sigma^2)\,. \]
Distribución previa: \[ \theta_j\mid\mu,\tau^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{N}(\mu,\tau^2)\,,\quad \mu\sim\textsf{N}(\mu_0,\gamma_0^2)\,,\quad \tau^2\sim\textsf{GI}\left(\frac{\eta_0}{2},\frac{\eta_0\tau^2_0}{2}\right)\,,\quad \sigma^2\sim\textsf{GI}\left(\frac{\nu_0}{2},\frac{\nu_0\sigma^2_0}{2}\right)\,, \] donde \(\mu_0,\gamma_0^2,\eta_0,\tau^2_0,\nu_0,\sigma^2_0\) son los hiperparámetros del modelo.
Distribución muestral: \[ y_{i,j}\mid\theta_j,\sigma_j^2 \,{\stackrel{\text{ind.}}{\sim}}\,\textsf{N}(\theta_j,\sigma^2_j)\,. \]
Distribución previa: \[\begin{align*} &\theta_j\mid\mu,\tau^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{N}(\mu,\tau^2)\,, & &\mu\sim\textsf{N}(\mu_0,\gamma_0^2)\,, & &\tau^2\sim\textsf{GI}\left(\frac{\eta_0}{2},\frac{\eta_0\tau^2_0}{2}\right)\,, &\\ &\sigma^2_j\sim\textsf{GI}\left(\frac{\nu}{2},\frac{\nu\sigma^2}{2}\right)\,, & &\nu\sim\text{Constante}\,,& &\sigma^2\sim\textsf{G}\left(\frac{\alpha_0}{2},\frac{\beta_0}{2}\right)\,,& \end{align*}\] donde \(\mu_0,\gamma_0^2,\eta_0,\tau^2_0,\nu,\alpha_0,\beta_0\) son los hiperparámetros del modelo y \(\textsf{G}(\alpha,\beta)\) denota la distribución Gamma con media \(\frac{\alpha}{\beta}\) y varianza \(\frac{\alpha}{\beta^2}\).
Distribución muestral: \[ y_{i,j}\mid\theta,\sigma^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{t}_\kappa(\theta,\sigma^2)\,, \] donde \(\textsf{t}_\kappa(\theta,\sigma^2)\) denota la distribución t con \(\kappa\) grados de libertad con media \(\theta\), para \(\kappa > 1\), y varianza \(\frac{\kappa}{\kappa - 2}\,\sigma^2\), para \(\kappa > 2\).
La variable aleatoria \(X\) tiene distribución t con parámetros \(\kappa \in \mathbb{N}\), \(-\infty < \theta < \infty\), \(\sigma^2 > 0\), i.e., \(X\mid\kappa,\theta,\sigma^2\sim\textsf{t}_\kappa(\theta,\sigma^2)\), si su función de densidad de probabilidad es \[ p(x\mid\kappa,\theta,\sigma^2) = \frac{1}{\sqrt{\pi\kappa\sigma^2}} \, \frac{\Gamma\left( (\kappa+1)/2 \right)}{\Gamma\left( \kappa/2 \right)}\,\left( 1 + \frac{( x - \theta )^2}{\kappa\sigma^2} \right)^{-(\kappa+1)/2} \,,\quad -\infty < x < \infty\,. \] Si \(X\mid\kappa,\theta,\sigma^2\sim\textsf{t}_\kappa(\theta,\sigma^2)\), entonces \(\textsf{E}(X) = \theta\), para \(\kappa > 1\), y \(\textsf{Var}(X) = \frac{\kappa}{\kappa - 2}\,\sigma^2\), para \(\kappa > 2\).
Esta distribución es útil para modelar y se encuentra implementada en el paquete de que se encuentra disponible en este enlace.
Para ajustar este modelo de manera directa utilizando el muestreador de Gibbs, se debe tener en cuenta que la distribución muestral \(y_{i,j}\mid\theta,\sigma^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{t}_\kappa(\theta,\sigma^2)\) es equivalente a la distribución jerárquica dada por \[ y_{i,j}\mid\theta,\varsigma^2_{i,j} \,{\stackrel{\text{ind.}}{\sim}}\,\textsf{N}(\theta,\varsigma^2_{i,j})\,,\qquad \varsigma^2_{i,j}\mid\sigma^2\,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{GI}\left( \frac{\kappa}{2}, \frac{\kappa\sigma^2}{2}\right)\,, \] donde las variables \(\varsigma^2_{i,j}\) son cantidades auxiliares (desconocidas) cuyo objetivo es facilitar la implementación del muestreador de Gibbs.
La inclusión de las variables \(\varsigma^2_{i,j}\) en el modelo permite que todas las distribuciones condicionales completas de las cantidades desconocidas (incluyendo las mismas variables auxiliares) tengan forma probabilística conocida. En Gelman et al. (2013, pp. 293-294) hay una discusión detallada al respecto. Si no se consideran las variables \(\varsigma^2_{i,j}\) en el modelo, la implementación del muestreador de Gibbs requeriría de otros métodos numéricos más sofisticados como el algoritmo de Metropolis-Hastings o el algoritmo de Monte Carlo Hamiltoniano, dado que la distribuciones condicionales completas tanto de \(\theta\) como \(\sigma^2\) no tendrían forma probabilística conocida.
Esta misma consideración acerca de las variables auxiliares se debe tener en cuenta para la implementación computacional de los modelos 5 y 6.
Distribución previa: \[ \theta\sim\textsf{N}(\mu_0,\gamma_0^2)\,,\quad \sigma^2\sim\textsf{G}\left(\frac{\alpha_0}{2},\frac{\beta_0}{2}\right)\,,\quad \kappa\sim\text{Constante}\,, \] donde \(\mu_0,\gamma_0^2,\alpha_0,\beta_0,\kappa\) son los hiperparámetros del modelo.
Distribución muestral: \[ y_{i,j}\mid\theta_j,\sigma^2 \,{\stackrel{\text{ind.}}{\sim}}\,\textsf{t}_\kappa(\theta_j,\sigma^2)\,. \]
Distribución previa: \[\begin{align*} &\theta_j\mid\mu,\tau^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{N}(\mu,\tau^2)\,, & &\mu\sim\textsf{N}(\mu_0,\gamma_0^2)\,, & &\tau^2\sim\textsf{GI}\left(\frac{\eta_0}{2},\frac{\eta_0\tau^2_0}{2}\right)\,, &\\ &\sigma^2\sim\textsf{G}\left(\frac{\alpha_0}{2},\frac{\beta_0}{2}\right)\,, & &\kappa\sim\text{Constante}\,, & & & \end{align*}\] donde \(\mu_0,\gamma_0^2,\eta_0,\tau^2_0,\alpha_0,\beta_0,\kappa\) son los hiperparámetros del modelo.
Distribución muestral: \[ y_{i,j}\mid\theta_j,\sigma^2_j \,{\stackrel{\text{ind.}}{\sim}}\,\textsf{t}_\kappa(\theta_j,\sigma_j^2)\,. \]
Distribución previa: \[\begin{align*} &\theta_j\mid\mu,\tau^2 \,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{N}(\mu,\tau^2)\,, & &\mu\sim\textsf{N}(\mu_0,\gamma_0^2)\,, & &\tau^2\sim\textsf{GI}\left(\frac{\eta_0}{2},\frac{\eta_0\tau^2_0}{2}\right)\,, &\\ &\sigma_j^2\,{\stackrel{\text{i.i.d.}}{\sim}}\,\textsf{G}\left(\frac{\alpha}{2},\frac{\beta}{2}\right)\,, & &\alpha\sim\text{Constante}\,, & &\beta\sim\textsf{G}\left(\frac{a_\beta}{2},\frac{b_\beta}{2}\right)\,, &\\ & & &\kappa\sim\text{Constante}\,, & & & \end{align*}\] donde \(\mu_0,\gamma_0^2,\eta_0,\tau^2_0,\alpha,a_\beta,b_\beta,\kappa\) son los hiperparámetros del modelo.
A continuación se presenta el DAG de \(\textsf{M}_6\) incluyendo las variables auxiliares.
En todos los casos, se utiliza la siguiente convención:
Los modelos presentados anteriormente se ajustan por medio de muestreadores de Gibbs con \(B = 11000\) iteraciones. Las primeras 1000 iteraciones del algoritmo constituyen el periodo de calentamiento del algoritmo, de manera que no se tienen en cuenta para realizar las inferencias. Para tal fin se emplean distribuciones previas empíricas difusas definidas por los siguientes hiperparámetros:
Los hiperparámetros se establecieron teniendo en cuenta que la media muestral es \(\bar{y} = 13.495\), la varianza muestral es \(s^2_y = 1.182\) y el inverso de la varianza muestral es \(1/s^2_y = 0.846\).
En este repositorio
de GitHub se encuentra la código de R
para ajustar
todos los modelos. A continuación se presenta la cadena de la
log-verosimilitud de cada \(\textsf{M}_k\), para \(k=1,\ldots,6\).
Se observa que en todos los casos, basados en la log-verosimilitud, no hay evidencia de falta de convergencia.
Con el fin de comparar predictivamente los modelos, se calcula el Criterio de Información de la Devianza (DIC, Deviance Information Criterion) de cada \(\textsf{M}_k\), para \(k=1,\ldots,6\). El DIC es una versión Bayesiana del Criterio de Información de Akaike (AIC, Akaike Infomation Criterion) y se define como: \[ \text{DIC} = -2\,\text{log}\,p(\boldsymbol{y}\mid\hat{\boldsymbol{\theta}}_{\text{Bayes}}) + 2p_{\text{DIC}} \] donde \[ \hat{\boldsymbol{\theta}}_{\text{Bayes}} = \textsf{E}(\boldsymbol{\theta}\mid\boldsymbol{y})\approx\frac{1}{B}\sum_{b=1}^B \boldsymbol{\theta}^{(b)} \] es la media posterior de \(\boldsymbol{\theta}\) y \[ p_{\text{DIC}} = 2\left( \text{log}\,p(\boldsymbol{y}\mid\hat{\boldsymbol{\theta}}_{\text{Bayes}}) - \textsf{E}( \text{log}\,p(\boldsymbol{y}\mid\boldsymbol{\theta}) \mid \boldsymbol{y} ) \right) \approx 2\left( \text{log}\,p(\boldsymbol{y}\mid\hat{\boldsymbol{\theta}}_{\text{Bayes}}) - \frac{1}{B}\sum_{b=1}^B \text{log}\,p\left(\boldsymbol{y}\mid \boldsymbol{\theta}^{(b)}\right) \right) \] es el número efectivo de parámetros.
DIC | pDIC | |
---|---|---|
M1 | 11480.84 | 1.99 |
M2 | 11276.78 | 24.26 |
M3 | 11276.25 | 47.46 |
M4 | 11428.46 | 1.96 |
M5 | 11168.09 | 24.66 |
M6 | 11165.88 | 47.74 |
Se observa que el mejor modelo en términos predictivos (penalizado por el número efectivo de parámetros) es el Modelo 6, dado que este modelo minimiza el DIC. También se observa que el número efectivo de parámetros corresponde es aproximadamente 48.
Referencias:
Es posible chequear la bondad de ajuste interna del modelo por medio de estadísticos de prueba calculados a partir de la distribución predictiva posterior del estadístico.
Si el estadístico es un valor típico de la distribución predictiva posterior, entonces se dice que el modelo captura adecuadamente la característica de interés que representa el estadístico de prueba. Esta característica se puede cuantificar por medio del valor \(p\) predictivo posterior (ppp), esto es, la probabilidad posterior de que el estadístico sea mayor que el valor observado correspondiente.
Los resultados correspondientes para Bogotá asociados con la media, la mediana, la desviación estándar, el coeficiente de variación, el rango y el rango intercuartílico usando \(\textsf{M}_6\) se presentan a continuación.
Media | Mediana | DE | CV | R | RI | |
---|---|---|---|---|---|---|
M_6 | 0.861 | 0.521 | 0.7 | 0.677 | 0.904 | 0.525 |
El Modelo 6 permite caracterizar apropiadamente la media, la mediana, la desviación estándar, el coeficiente de variación, el rango y el rango intercuartílico, dado que ningún valor ppp es extremo (menor a 5% o superior a 95%).
A continuación se presenta un ranking Bayesiano de los dominios basado en los efectos promedio \(\theta_1,\ldots,\theta_m\) de \(\textsf{M}_6\). La siguiente visualización incluye simultáneamente las estimaciones puntuales y los intervalos de credibilidad al 95% de cada \(\theta_j\), para \(j=1,\ldots,m\).
Ranking de los dominios basado en los efectos promedio del Modelo 4. En rojo: efectos promedio significativamente inferiores a 13.830. En negro: efectos promedio que no difieren significativamente de 13.830. En verde: efectos promedio significativamente superiores a 13.830. Se observa que 13.830 corresponde a un SMLMV de 2022 en escala logarítmica (línea vertical en color gris).
El Top 5 del ranking está conformado por 1. Medellin, 2. Manizales, 3. Tunja, 4. Bogotá, 5. Bucaramanga.Solamente Medellin y Manizales tiene efectos promedio significativamente superiores a 1 SMLMV de 2022 (valor de referencia). Aunque los efectos promedio de Tunja y Bogotá no difieren significativamente del valor de referencia, las estimaciones puntuales correspondientes son claramente superiores. Similarmente, el efecto promedio de Bucaramanga no difiere significativamente del valor de referencia, pero su estimación puntual es aproximadamente igual a este valor. Las últimas posiciones del ranking las ocupan 21. Quibdo, 22. Rioacha, 23. Resto Urbano, 24. Sincelejo, 25. Rural. Este último dominio (Rural) se encuentra muy por debajo de los demás dominios. Finalmente, la incertidumbre asociada con las estimaciones de los efectos promedio, la cual se ve reflejada en la amplitud de los intervalos, varia considerablemente.
A continuación se estima puntualmente la media, la desviación estándar y el coeficiente de variación de los ingresos para el Top 5 del ranking usando \(\textsf{M}_6\). Para lograr tal fin en escala real se emplea el método delta dado que todos los modelos se ajustaron en escala log.
Ranking | Media | DE | CV (%) | |
---|---|---|---|---|
MEDELLIN | 1 | 1227401 | 1425492 | 116.1 |
MANIZALES | 2 | 1158390 | 1111272 | 95.9 |
TUNJA | 3 | 1137319 | 1342489 | 118.0 |
BOGOTA | 4 | 1131058 | 1570543 | 138.9 |
BUCARAMANGA | 5 | 1023315 | 1325420 | 129.5 |
Se observa que la volatilidad (variabilidad) de los ingresos en estos dominios es muy alta a pesar de ocupar las primeras posiciones del ranking.
Con el fin de segmentar los 25 dominios de acuerdo con los ingresos totales de las personas, se conforma un arreglo que contenga las estimaciones puntuales de los \(\theta_j\) y los \(\sigma_j\) de todos los dominios usando \(\textsf{M}_6\). A continuación se usa este arreglo como insumo, para segmentar los dominios por medio de agrupación jerárquica con cuatro grupos.
Repitiendo este mismo protocolo en cada iteración del muestreador de Gibbs se obtiene que los mismos dominios tienen una probabilidad posterior alta de pertenecer al mismo grupo (colores más oscuros), pero se distinguen dos grandes grupos, uno del dominio 1 al 14 y otro del dominio 15 al 25 (usando el ordenamiento del ranking).