1 Introducción

La base de datos disponible en este enlace contiene el total de víctimas según las entradas de noticias criminales por delito al Sistema Penal Oral Acusatorio en la Ley 906 de 2004 y Ley 1098 de 2006 desde hechos ocurridos en 2010.

A la fecha (01/03/23), la base suministrada por la Fiscalía General de la Nación contiene 3,651,193 registros y 25 campos. Toda la documentación se encuentra disponible en este enlace.

El objetivo de este caso de estudio es modelar el conteo total de víctimas en Bogotá D. C. en 2012-2022 para establecer si existen diferencias significativas por sexo respecto a delitos sexuales en menores de edad.

2 Tratamiento de datos

Para ajustar los modelos propuestos en 2022 (similarmente para los demás años), se consideran los individuos tales que:

La base de datos filtrada de esta manera sin tener en cuenta ningún otro aspecto de los demás campos contiene 394 registros, a saber, 116 hombres, 270 mujeres, 8 sin información. Finalmente, se remueven los registros sin información de sexo, y acto seguido, también se remueven los outliers extremos asociados con el conteo total de víctimas. Así, se obtienen conteos asociados con 115 hombres y 237 mujeres.

Nota: una observación de una variable de interés se denomina extremo si la observación es bien sea inferior a \(q_1 - 3.0 RI\) o superior a \(q_3 + 3.0 RI\), donde \(q_1\) y \(q_3\) son el percentil 25 y 75 de la variable, respectivamente, y \(RI = q_3 - q_1\) es el rango intercuartílico.

3 Análisis Bayesiano en Bogotá D. C. en 2022

Sea \(\boldsymbol{y}_k = (y_{k,1},\ldots,y_{k,n_k})\) el vector de observaciones correspondientes al conteo total de víctimas asociados con la población \(k\), con \(k = 1\) (hombres) y \(k = 2\) (mujeres). Se consideran modelos Gamma-Poisson de la forma \[\begin{align*} y_{k,i}\mid\theta_k &\,{\stackrel{\text{iid}}{\sim}}\,\textsf{Poisson} (\theta_k)\,,\quad i = 1,\ldots,n_k\,,\\ \theta_k &\sim \textsf{Gamma}(a_k,b_k) \end{align*}\] donde \(a_k\) y \(b_k\) son hiperparámetros, para \(k=1,2\).

3.1 Ajuste del modelo

Una aplicación directa del teorema de Bayes se demuestra que en este caso la distribución posterior de \(\theta_k\) está dada por \[ \theta_k \sim \textsf{Gamma}(a_k + s_k, b_k + n_k) \] donde \(s_k = \sum_{i=1}^{n_k} y_{k,i}\) es la suma de los conteos asociados con la población \(k\) y \(n_k\) es el tamaño de la muestra correspondiente, con \(k = 1\) (hombres) y \(k = 2\) (mujeres).

Específicamente, utilizando distribuciones previas no informativas definidas por \(a_k=b_k=0.01\) (las distribuciones resultan aproximadamente planas en las regiones de alta densidad de los parámetros), se tiene que \[ \theta_1 \sim \textsf{Gamma}(208.01,115.01) \qquad\text{y}\qquad \theta_2 \sim \textsf{Gamma}(539.01,237.01)\,. \] Estas distribuciones se presentan de manera simultanea junto con la distribución previa en la siguiente Figura.

Distribución posterior de hombres y mujeres junto con la distribución previa.

Distribución posterior de hombres y mujeres junto con la distribución previa.

3.2 Comparación de las tasas promedio de victimización

Con el fin de comparar las tasas promedio de victimización, se investiga el parámetro \(\eta = (\theta_2 - \theta_1)/\theta_1\) correspondiente al cambio proporcional en las tasas promedio de victimas de delitos sexuales en menores de edad entre mujeres y hombres respecto a los hombres en Bogotá D. C. en 2022.

Así, usando métodos de Monte Carlo, se generan \(B=5000\) muestras independientes idénticamente distribuidas de la distribución posterior de cada grupo, \[ \theta_1^{(1)},\ldots,\theta_1^{(B)} \,{\stackrel{\text{iid}}{\sim}}\,\textsf{Gamma}(208.01,115.01) \qquad\text{y}\qquad \theta_2^{(1)},\ldots,\theta_2^{(B)} \,{\stackrel{\text{iid}}{\sim}}\,\textsf{Gamma}(539.01,237.01)\,, \] y se calcula \[ \eta^{(b)} = \frac{\theta_2^{(b)} - \theta_1^{(b)}}{\theta_1^{(b)}}\,,\qquad b = 1,\ldots,B\,, \] con el fin de aproximar cualquier cantidad asociada con la distribución posterior de \(\eta\). A continuación se presenta la distribución posterior de \(\eta\), junto con la media, el coeficiente de variación, y un intervalo de credibilidad al 95%.

Se estima que la tasa de cambio que compara la victimización entre mujeres y hombres respecto a los hombres es de 26 puntos. Además, con un probabilidad del 95% se tiene que esta tasa cambio se encuentra entre 7 y 47 puntos, lo que deja en evidencia que, bajo el modelo propuesto, la tasa promedio de victimas de las mujeres es significativamente superior a la tasa promedio de los hombres en Bogotá D. C. en 2022.

Distribución posterior de \(\eta\).
Media CV 2.5% 97.5%
\(\eta\) 0.262 0.395 0.07 0.474
Distribución posterior de $\eta$.

Distribución posterior de \(\eta\).

3.3 Análisis de sensitividad

Ahora se lleva a cabo un análisis de sensitividad a las inferencias por medio de la especificación de diferentes distribuciones previas. Para ello, se consideran los siguientes estados de información externos al conjunto de datos:

  • Distr. Previa 1: \(a_k=b_k=0.01\), para \(k=1,2\).
  • Distr. Previa 2: \(a_k=b_k=0.10\), para \(k=1,2\).
  • Distr. Previa 3: \(a_k=b_k=1.00\), para \(k=1,2\).
  • Distr. Previa 4: \(a_k=1.00\) y \(b_k=1/2\), para \(k=1,2\).
  • Distr. Previa 5: \(a_k=1.00\) y \(b_k=1/3\), para \(k=1,2\).
  • Distr. Previa 6: \(a_k=1.00\) y \(b_k=1/4\), para \(k=1,2\).

Siguiendo el mismo protocolo de la sección anterior, en cada caso se obtiene la distribución posterior de \(\eta\), junto con la media, el coeficiente de variación, y un intervalo de credibilidad al 95%. Los resultados correspondientes se presentan a continuación.

Las inferencias acerca de a tasa de cambio que compara la victimización entre mujeres y hombres respecto a los hombres son robustas al estado de información externo al conjunto de datos, dado que la distribución posterior (y por ende las medidas de resumen correspondientes) no presenta variaciones sustanciales a través de las diferentes distribución previas bajo consideración.

Distribución posterior de \(\eta\) bajo diferentes distribuciones previas.
Media Prev. \(\theta_k\) CV Prev. \(\theta_k\) Media \(\eta\) CV \(\eta\) 2.5% \(\eta\) 97.5% \(\eta\)
Previa 1 1 10.000 0.262 0.395 0.070 0.474
Previa 2 1 3.162 0.264 0.400 0.074 0.492
Previa 3 1 1.000 0.264 0.390 0.074 0.480
Previa 4 2 1.000 0.262 0.394 0.079 0.477
Previa 5 3 1.000 0.263 0.387 0.073 0.477
Previa 6 4 1.000 0.260 0.395 0.070 0.475
Distribución posterior de $\eta$ bajo diferentes distribuciones previas.

Distribución posterior de \(\eta\) bajo diferentes distribuciones previas.

3.4 Bondad de ajuste

Ahora, se evalúa la bondad de ajuste del modelo propuesto en cada población utilizando la distribución predictiva posterior de la media y la desviación estándar (estadísticos de prueba).

Nuevamente, usando métodos de Monte Carlo, para cada muestra \(\theta_{k}^{(1)},\ldots,\theta_{k}^{(B)}\) de la distribución posterior de \(\theta_k\) de cada grupo, para \(k=1,2\), se genera un nuevo conjunto de \(n_k\) observaciones \(\tilde{\boldsymbol{y}}_k^{(b)} = (\tilde{y}_{k,1}^{(b)},\ldots,\tilde{y}_{k,n_k}^{(b)})\) condicional en el valor de \(\theta_k^{(b)}\), esto es, \[ \tilde{y}_{k,1}^{(b)},\ldots,\tilde{y}_{k,n_k}^{(b)}\mid\theta_k^{(b)} \,{\stackrel{\text{iid}}{\sim}}\,\textsf{Poisson}(\theta_k^{(b)})\,,\qquad b=1,\ldots,B\,. \] Luego, para cada nuevo conjunto de datos \(\tilde{\boldsymbol{y}}_k^{(b)}\) se calcula tanto la media como la desviación estándar, lo que produce una secuencia de \(B\) muestras aleatorias de la distribución predictiva posterior de cada uno de estos estadísticos.

Finalmente, se dice que un modelo es un “buen modelo” si el valor del estadístico usando los datos observados es un valor típico de la distribución predictiva posterior correspondiente. Esta característica se puede cuantificar por medio del valor \(p\) predictivo posterior (ppp). Los resultados correspondientes se presentan a continuación.

El modelo propuesto permite caracterizar apropiadamente la media del conteo de victimas tanto de los hombres como de las mujeres (\(ppp = 0.477\) y \(ppp = 0.482\), respectivamente). De otra parte, aunque el modelo captura adecuadamente la variabilidad del conteo de victimas de los hombres (\(ppp = 0.081\)), hay evidencia importante de que el modelo subestima esta característica de las mujeres (\(ppp = 0.000\)).

Valores \(p\) predictivos posteriores de los estadísticos de prueba.
Media Desv. Estándar
Hombres 0.477 0.081
Mujeres 0.482 0.000
Distribución predictiva posterior conjunta de los estadísticos de prueba junto con el valor observado correspondiente.

Distribución predictiva posterior conjunta de los estadísticos de prueba junto con el valor observado correspondiente.

4 Análisis frecuentista en Bogotá D. C. en 2022

Aquí, nuevamente se hace inferencia sobre el parámetro \(\eta = (\theta_2 - \theta_1)/\theta_1\) correspondiente al cambio proporcional en las tasas promedio de victimas de delitos sexuales en menores de edad entre mujeres y hombres respecto a los hombres en Bogotá D. C. en 2022, pero esta vez, bajo el paradigma frecuentista usando Boostrap paramétrico.

4.1 Ajuste del modelo

Se asume que los datos en cada grupo surgen de acuerdo a un modelo Poisson con parámetro \(\theta_k\), esto es, \[ \begin{align*} y_{k,i}\mid\theta_k &\,{\stackrel{\text{iid}}{\sim}}\,\textsf{Poisson} (\theta_k)\,,\quad i = 1,\ldots,n_k\,,\qquad k = 1,2\,.\\ \end{align*} \] Para hacer inferencia frecuentista usando esta familia paramétrica mediante técnicas de remuestreo, se sigue el siguiente algoritmo:

  1. Estimar \(\theta_k\), para \(k=1,2\), usando máxima verosimilitud. En este caso, el estimador máximo verosímil de \(\theta_k\) es \(\hat{\theta}_{\text{mle}\,k} = \bar{y}_k = \frac{1}{n_k}\sum_{i=1}^{n_k} y_{k,i}\). Específicamente, se tiene que \(\hat{\theta}_{\text{mle}\,1} = 1.809\) y \(\hat{\theta}_{\text{mle}\,2} = 2.274\).
  2. Generar un nuevo conjunto de \(n_k\) observaciones \(\tilde{y}_{k,1},\ldots,\tilde{y}_{k,n_k}\) a partir del modelo supuesto usando el valor de \(\hat{\theta}_{\text{mle}\,k}\), es decir, \[ \tilde{y}_{k,1},\ldots,\tilde{y}_{k,n_k}\,{\stackrel{\text{iid}}{\sim}}\,\textsf{Poisson}(\hat{\theta}_{\text{mle}\,k})\,,\qquad k=1,2\,. \]
  3. Estimar \(\theta_k\) a partir de la remuestra \(\tilde{y}_{k,1},\ldots,\tilde{y}_{k,n_k}\), para \(k=1,2\), mediante \(\tilde{\theta}_k = \frac{1}{n_k}\sum_{i=1}^{n_k} \tilde{y}_{k,i}\), y calcular \[ \tilde{\eta} = \frac{\tilde{\theta}_2 - \tilde{\theta}_1}{\tilde{\theta}_1}\,. \]
  4. Repetir los pasos 2. y 3. \(B=5000\) veces.
  5. Considerar la distribución empírica de \(\tilde{\eta}_1,\ldots,\tilde{\eta}_B\) como una aproximación a la distribución del estimador máximo verosímil de \(\eta\) dado por \(\hat{\eta}_{\text{mle}} = (\hat{\theta}_{\text{mle}\,2} - \hat{\theta}_{\text{mle}\,1})/\hat{\theta}_{\text{mle}\,1}\).

A continuación se presenta la aproximación a la distribución de \(\hat{\eta}_{\text{mle}}\), junto con la media, el coeficiente de variación, y un intervalo de credibilidad al 95%. Como punto de referencia, también se presenta la inferencia Bayesiana de la Sección 3.2.

Los dos enfoques dan como resultado inferencias idénticas acerca la tasa de cambio que compara la victimización entre mujeres y hombres respecto a los hombres. Este resultado no es sorprendente porque la distribución previa que se utilizó en el análisis Bayesiano es difusa, y además, el tamaño de la muestra para hombres y mujeres es lo suficientemente grande para dominar las inferencias en un espacio de parámetros de baja dimensión.

Distribución posterior de \(\eta\).
Media CV 2.5% 97.5%
Inferencia Bayesiana 0.262 0.395 0.070 0.474
Inferencia Frecuentista 0.263 0.397 0.068 0.487
Distribución posterior de $\eta$.

Distribución posterior de \(\eta\).

4.2 Simulación: tasas de cobertura de los intervalos

Con el fin de evaluar y comparar la idoneidad de los intervalos bajo ambos paradigmas, se simulan 100000 muestras aleatorias de poblaciones Poisson bajo los siguientes escenarios:

  • Escenario 1: \(n_1 = 10\), \(n_2 = 10\), \(\theta_1 = \bar{y}_1\), y \(\theta_2 = \bar{y}_2\).
  • Escenario 2: \(n_1 = 20\), \(n_2 = 20\), \(\theta_1 = \bar{y}_1\), y \(\theta_2 = \bar{y}_2\).
  • Escenario 3: \(n_1 = 50\), \(n_2 = 50\), \(\theta_1 = \bar{y}_1\), y \(\theta_2 = \bar{y}_2\).
  • Escenario 4: \(n_1 = 100\), \(n_2 = 100\), \(\theta_1 = \bar{y}_1\), y \(\theta_2 = \bar{y}_2\).

donde \(\bar{y}_k = \tfrac{1}{n_k}\sum_{i=1}^{n_k} y_{k,i}\) es la media muestral observada de la población \(k\), para \(k=1,2\), esto es, \(\bar{y}_1 = 1.809\) y \(\bar{y}_2 = 2.274\). En cada escenario el valor verdadero de \(\eta\) es \(\eta = (\bar{y}_2 - \bar{y}_1)/\bar{y}_1 = 0.257\).

Usando cada muestra, se ajusta el modelo de manera tanto Bayesiana (usando la distribución previa \(a_k=b_k=0.01\)) como frecuentista (usando Bootstrap paramétrico), y en cada caso se calcula la proporción de veces que el intervalo de credibilidad/confianza al 95% contiene el valor verdadero de \(\eta\).

Nuevamente, por las razones expuestas en la sección anterior, los dos enfoques dan como resultado tasas de cobertura para \(\eta\) casi idénticas y aproximadamente iguales al 95% como se esperaba. Estos hallazgos son alentadores dado que en ambos casos la cobertura empírica coincide con la nominal.

Tasas de cobertura de los intervalos de credibilidad/confianza para \(\eta\).
Inferencia Bayesiana Inferencia Frecuentista
\(n=10\) 0.936 0.939
\(n=20\) 0.948 0.946
\(n=50\) 0.956 0.956
\(n=100\) 0.960 0.955

5 Análisis Bayesiano y frecuentista en Bogotá D. C. en 2012-2022

Finalmente, siguiendo el mismo protocolo de las secciones 3.2 y 4.1, se ajusta el modelo de manera tanto Bayesiana (usando la distribución previa \(a_k=b_k=0.01\)) como frecuentista (usando Bootstrap paramétrico) para cada año de 2012 a 2022 (inclusive), y se obtiene tanto una estimación puntual como intervalos de credibilidad/confianza al 95% y 99% para \(\eta = (\theta_2-\theta_1)/\theta_1\), es decir, el cambio proporcional en las tasas promedio de victimas de delitos sexuales en menores de edad entre mujeres y hombres respecto a los hombres en Bogotá D. C.. En la siguiente Figura se presentan los resultados.

Como antes, las inferencias bajo ambos paradigmas son muy similares. En todos los años, la estimación puntual de la tasa de cambio que compara la victimización entre mujeres y hombres respecto a los hombres es mayor que cero (exceptuando en 2013), lo que sugiere una mayor victimización para las mujeres de 2012 a 2022, pero las diferencias son significativas al 95% únicamente en 2016, 2018, 2019, y 2022. Las mayores diferencias se presentan en 2016 y las menores en 2013. Finalmente, la longitud de los intervalos indica que se presenta mayor incertidumbre acerca de la tasa de cambio que compara la victimización de 2012 a 2016, y luego, ésta se reduce de manera sustancial de 2017 a 2022.

Estimación puntual e intervalos de credibilidad/confianza al 95% (línea gruesa) y al 99% (línea delgada) para $\eta$ en 2012-2022.

Estimación puntual e intervalos de credibilidad/confianza al 95% (línea gruesa) y al 99% (línea delgada) para \(\eta\) en 2012-2022.