El delito sexual constituye una grave vulneración de los derechos humanos y un problema crítico de salud pública, cuyas consecuencias afectan de manera profunda la integridad física, emocional y social de las víctimas. En el contexto colombiano, contar con análisis estadísticos desagregados que permitan examinar el comportamiento del fenómeno según grupos etarios y sexos biológicos resulta indispensable para comprender sus dinámicas y diseñar estrategias de prevención y atención más efectivas.
Este proyecto se justifica en la necesidad de caracterizar la tendencia temporal mensual de los exámenes médico-legales por presunto delito sexual registrados entre 2015 y 2024, utilizando datos oficiales del Instituto Nacional de Medicina Legal. El estudio se desarrollará con un enfoque diferencial que permita comparar la evolución del fenómeno entre menores y mayores de edad, así como entre hombres y mujeres, identificando patrones, estacionalidades, variaciones significativas y posibles puntos de inflexión en las series. Generar esta evidencia contribuye a fortalecer la toma de decisiones institucionales, orientar políticas públicas basadas en datos y promover intervenciones más oportunas y focalizadas, acordes con las particularidades de cada población afectada.
El uso de series de tiempo resulta fundamental en este estudio porque permite analizar la evolución mensual de los exámenes médico-legales por presunto delito sexual a lo largo de una década, identificando tendencias, comportamientos recurrentes y posibles cambios estructurales en el fenómeno. Esta herramienta estadística no solo facilita comprender cómo varían los casos en función del tiempo, sino que también permite comparar de manera rigurosa las dinámicas entre grupos etarios y sexos biológicos. Gracias a ello, es posible generar evidencia sólida que respalde la toma de decisiones, la formulación de políticas públicas y la focalización de intervenciones preventivas basadas en patrones reales observados en la población colombiana.
Para el desarrollo de este estudio se utilizó la base de datos oficial “Exámenes médico legales por presunto delito sexual. Colombia, años 2015 a 2024. Cifras definitivas”, suministrada por el Instituto Nacional de Medicina Legal y Ciencias Forenses, la cual comprende un total de 233,352 observaciones correspondientes a casos individuales de exámenes practicados (donde cada fila representa un caso único), estructurada originalmente en 32 variables que recopilan información demográfica, geográfica y contextual de cada evento. Para los fines específicos de este análisis de series temporales, se realizó una selección estratégica de variables clave: “Año del hecho”, “Mes del hecho” que permiten la agregación temporal de los casos, “Grupo Mayor Menor de Edad” y “Sexo de la victima”, variables categóricas fundamentales que discriminan entre víctimas “Mayor de Edad (>18 Años)” “Menor de Edad (<18 Años)” y “Mujer”Hombre”, identificándose únicamente 2 casos sin información en grupo etario durante todo el periodo de estudio. A partir de la frecuencia mensual de estas categorías se calcularon estadísticos descriptivos y se construyeron las visualizaciones que sustentan el análisis comparativo de las tendencias temporales entre ambos grupos poblacionales a lo largo del periodo estudiado.
## Rows: 233,352
## Columns: 7
## $ ID <chr> "1", "2", "3", "4", "5", "6", "7", "8", …
## $ `Año del hecho` <chr> "2015", "2015", "2015", "2015", "2015", …
## $ `Sexo de la victima` <chr> "Hombre", "Hombre", "Mujer", "Mujer", "M…
## $ `Grupo Mayor Menor de Edad` <chr> "a) Menor de Edad (<18 Años)", "a) Menor…
## $ `Mes del hecho` <chr> "Junio", "Agosto", "Febrero", "Junio", "…
## $ `Departamento del hecho DANE` <chr> "Cundinamarca", "Norte de Santander", "A…
## $ `Código Dane Departamento` <chr> "25", "54", "8", "63", "52", "8", "17", …
## # A tibble: 36 × 5
## Año Mes Menores Mayores `c) Sin información`
## <chr> <fct> <int> <int> <int>
## 1 2015 Enero 1664 250 0
## 2 2015 Febrero 1801 281 0
## 3 2015 Marzo 1883 290 0
## 4 2015 Abril 1767 296 0
## 5 2015 Mayo 1799 269 0
## 6 2015 Junio 1596 224 0
## 7 2015 Julio 1648 245 0
## 8 2015 Agosto 1783 270 0
## 9 2015 Septiembre 1659 230 0
## 10 2015 Octubre 1498 239 0
## # ℹ 26 more rows
Se analiza la relación lineal entre los casos mensuales de menores y mayores de edad mediante el coeficiente de correlación de Pearson, el cual cuantifica la dirección y fuerza de asociación entre ambas variables, con valores que oscilan entre -1 (correlación negativa perfecta) y +1 (correlación positiva perfecta), teniendo en cuenta a cero como correlación nula. La aplicación de esta medida es fundamental para determinar si existen patrones temporales compartidos entre los grupos etarios, lo que permitiría identificar factores de riesgo comunes o diferenciados en la victimización sexual.
## Coeficiente de correlación (r): 0.3647
Se identifica una correlación positiva débil entre los casos mensuales de menores y mayores de edad, indicando que existe una tendencia leve a que cuando aumentan los exámenes médico-legales en un grupo, también lo hagan en el otro, aunque esta relación no es fuerte.
| Valor | |
|---|---|
| n | 120.00 |
| mean | 1640.42 |
| sd | 288.00 |
| var | 82946.67 |
| moda | 1493.00 |
| min | 648.00 |
| max | 2219.00 |
| rango | 1571.00 |
| median | 1662.00 |
| skew | -0.56 |
| kurtosis | 0.52 |
El análisis descriptivo mensual para menores de edad revela un promedio de 1640 casos mensuales con una mediana de 1662, indicando una distribución ligeramente concentrada en valores altos. La desviación estándar de 288 casos y el amplio rango de 1571 evidencian una variabilidad significativa entre meses, confirmada por el coeficiente de asimetría de -0.56 que señala una cola hacia valores bajos. La curtosis de 0.52 indica una distribución más puntiaguda que la normal, mientras que la moda en 1493 casos (por debajo de la media) sugiere meses frecuentes con menor incidencia. Estos resultados, destacan la necesidad de implementar estrategias diferenciadas que consideren esta variabilidad mensual, particularmente para los periodos que alcanzan hasta 2219 casos mensuales.
Gráficos
Se complementa el análisis descriptivo mediante visualizaciones que revelan la estructura distribucional de los casos mensuales en menores de edad. El boxplot evidencia la dispersión y valores extremos, mientras el histograma de densidad muestra la forma sugerida por los estadísticos de asimetría y curtosis, proporcionando una comprensión gráfica integral de la variabilidad temporal del fenómeno.
El diagrama de caja confirma la significativa variabilidad mensual en los casos de menores de edad, evidenciando un rango intercuartílico amplio que concentra el 50% central de los datos entre 1490 (Q1) y 1830 (Q3) casos mensuales. La presencia de valores atípicos por debajo de 1000 casos y la mediana ligeramente desplazada hacia el cuartil superior reflejan la asimetría negativa previamente identificada (-0.56), indicando meses recurrentes con baja incidencia que contrastan con la tendencia general de alta actividad. Esta dispersión sustancial justifica la necesidad de considerar la variabilidad mensual en el diseño de estrategias de atención y prevención.
A partir de este histograma con curva de densidad es importante conocer la distribución probabilística que mejor describe el comportamiento de los datos, comparando múltiples distribuciones teóricas frente a la distribución observada. Para seleccionar la distribución óptima, se pueden emplear los criterios de información AIC (Akaike Information Criterion) y BIC (Bayesian Information Criterion), que evalúan la calidad del ajuste penalizando la complejidad del modelo, donde valores más bajos indican mejor equilibrio en bondad de ajuste. Estos criterios son definidos como:
\[ AIC = 2k-2\ln(L) \] \[ BIC = k\ln(n)-2\ln(L) \] Donde \(n\) es el número de observaciones, \(k\) es el número de parámetros estimados en la distribución y \(L\) es la Máxima verosimilitud.
Mediante la función “fitdist” del paquete “fitdistrplus” realiza el ajuste de distribuciones probabilísticas a un conjunto de datos mediante el método de máxima verosimilitud, que encuentra los parámetros de cada distribución que maximizan la probabilidad de observar los datos reales. El proceso compara sistemáticamente distribuciones teóricas con la distribución empírica de los datos, estimando para cada una sus parámetros óptimos y calculando medidas de bondad de ajuste como AIC y BIC. Esta metodología permite identificar objetivamente qué distribución describe mejor el comportamiento de los datos, proporcionando las bases para análisis y pronósticos en el estudio de series temporales.
Dado que las frecuencias mensuales de exámenes médico-legales en este estudio alcanzan valores en el orden de centenas y miles, el uso de distribuciones discretas como la Poisson o la binomial negativa no resulta adecuado. Estas distribuciones están diseñadas para modelar conteos de eventos poco frecuentes, mientras que en este caso los valores son suficientemente grandes para aproximarse al comportamiento de una variable continua. Por ello, resulta más apropiado emplear distribuciones continuas como la normal, gamma, weibull o lognormal, que permiten describir de mejor manera la variabilidad y la posible asimetría en los niveles mensuales de casos observados.
A continuación se evidencia los valores AIC y BIC para analizar y ver el ajuste con distribuciones continuas teniendo presente lo anteriormente descrito y explicado.
## Distribucion AIC BIC
## 4 Weibull 1696.830 1702.405
## 5 Logística 1701.483 1707.058
## 1 Normal 1702.655 1708.230
## 3 Gamma 1715.636 1721.211
## 2 Log-Normal 1725.114 1730.689
El análisis de ajuste distribucional indica y muestra que la distribución Weibull es la que mejor se adapta a los datos mensuales de menores de edad, con el AIC más bajo (1696.83) y BIC más bajo (1702.41). Le siguen muy de cerca las distribuciones Logística (AIC: 1701.48) y Normal (AIC: 1702.66), mientras que las distribuciones Gamma y Log-Normal presentan ajustes significativamente inferiores.
Observar primeramente la frecuencia mensual de los casos a través de mapas de calor, complementa visualmente la concentración temporal dado los meses de cada año, aportando así el inicio de lo que posiblemente podría esperarse en un posterior análisis de series de tiempo.
Se continúa con la función “ts()” del paquete stats de R, la cual convierte vectores numéricos en objetos de serie temporal mediante la especificación de parámetros de inicio, frecuencia y puntos de tiempo. Esta transformación es fundamental para estructurar los datos mensuales de exámenes médico-legales por presunto delito sexual en un formato temporal reconocible por los algoritmos de análisis de series, permitiendo la identificación de patrones estacionales, tendencias y la aplicación de modelos predictivos ARIMA. La función se implementa estableciendo como punto de inicio enero de 2015 con frecuencia mensual.
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 1664 1801 1883 1767 1799 1596 1648 1783 1659 1498 1209 874
## 2016 1493 1563 1673 1605 1617 1579 1638 1665 1595 1453 1348 1187
## 2017 1320 1455 1652 1599 1954 1696 1727 1898 1946 1941 1793 1682
## 2018 1577 1741 1807 2066 2177 1860 1967 2219 2067 2202 1831 1280
## 2019 1896 1847 2060 1993 2141 1790 2023 1998 1992 1951 1585 1337
## 2020 1809 1926 1462 648 1101 1269 1270 1136 1286 1323 1183 957
## 2021 1551 1580 1793 1440 1322 1467 1518 1668 1738 1611 1565 1225
## 2022 1686 1757 2143 1926 1977 1870 1701 1913 1863 1777 1614 1268
## 2023 1680 1571 1829 1629 1833 1711 1638 1827 1762 1674 1456 1155
## 2024 1609 1496 1660 1739 1731 1367 1493 1480 1547 1554 1390 1009
Dadas las descomposiciones tanto aditivas como multiplicativas, se observa que el componente de tendencia de las cifras de los exámenes medico-legales por presunto delito sexual a partir del año 2017 comienza a aumentar, pero en 2020 se va inferiorizando. Inmediantame, en 2021 se aprecia de nuevo un crecimiento hasta 2022. El componente de estacionariedad, evidencia que en los meses fines de año es cuando estos casos crecen y decrecen marcadamente. Mientras, que el componente de ruido situa entre 2020 y 2021 un evento puntual presentado posiblmente por la pandemia de COVID-19.
Se verifica el supuesto de estacionariedad mediante el test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS), el cual contrasta la hipótesis nula de estacionariedad alrededor de una tendencia. Esta prueba complementaria permite confirmar que las series temporales no presentan componentes de tendencia que comprometan la validez de los modelos de pronóstico (López, 2002).
Hipótesis del test
\[ \begin{cases} H_0: \text{La serie es estacionaria (no tiene raíz unitaria)} \\ H_1: \text{La serie no es estacionaria (tiene raíz unitaria)}\end{cases} \]
Interpretación del test
El análisis de estacionariedad es fundamental para garantizar que la media y varianza de los casos se mantengan constantes en el tiempo, permitiendo la aplicación adecuada de metodologías de series temporales.
##
## KPSS Test for Level Stationarity
##
## data: ts_menores_mensual
## KPSS Level = 0.16808, Truncation lag parameter = 4, p-value = 0.1
Mediante el test de KPSS, la serie es estacionaria dado que su p-valor es mayor que \(0.05\) (No se rechaza \(H_0\)).
Si se quiere complementar la verificación de la prueba anterior, se puede aplicar la función “ndiffs()” del paquete forecast, la cual muestra el número de diferencias necesarias para que la serie se vuelva estacionaria.
## [1] 0
Se evidencia que la serie no necesita diferencia para ser estacionaria dado que ya lo es.
La selección óptima de modelos de series temporales se llevó a cabo mediante la función auto.arima() del paquete forecast, la cual automatiza la identificación del modelo ARIMA más adecuado a partir de una búsqueda exhaustiva de combinaciones de parámetros (p,d,q). Este procedimiento evalúa la estacionariedad de la serie, determina el orden de diferenciación requerido y selecciona la estructura autorregresiva y de medias móviles que minimiza los criterios de información AIC, AICc y BIC, favoreciendo la parsimonia del modelo. Aunque el criterio AICc está diseñado especialmente para muestras pequeñas, en este estudio se trabaja con un número elevado de observaciones (del orden de miles), por lo cual AICc converge a AIC, permitiendo una selección equivalente. En lugar de elegir únicamente el modelo con menor AICc, se consideraron los tres mejores modelos, con el fin de contrastar su desempeño mediante el análisis de residuos.
## MODELO CONSTANTE AICc TIPO
## 14 ARIMA(1,0,0) with non-zero mean 1638.659 ARIMA
## 38 ARIMA(4,0,0) with non-zero mean 1639.272 ARIMA
## 16 ARIMA(1,0,1) with non-zero mean 1640.797 ARIMA
## 66 ARIMA(1,0,0)(1,0,0)[12] with non-zero mean 1606.840 SARIMA
## 72 ARIMA(1,0,0)(2,0,0)[12] with non-zero mean 1608.638 SARIMA
## 82 ARIMA(1,0,1)(1,0,0)[12] with non-zero mean 1608.848 SARIMA
##
## =========================================
## MODELO 1 : ARIMA(1,0,0)
## TIPO: ARIMA
## =========================================
##
## Series: ts_menores_mensual
## ARIMA(1,0,0) with non-zero mean
##
## Coefficients:
## ar1 mean
## 0.6612 1630.8435
## s.e. 0.0697 57.6476
##
## sigma^2 = 47950: log likelihood = -816.23
## AIC=1638.45 AICc=1638.66 BIC=1646.81
##
## =========================================
## MODELO 2 : ARIMA(4,0,0)
## TIPO: ARIMA
## =========================================
##
## Series: ts_menores_mensual
## ARIMA(4,0,0) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 mean
## 0.6564 -0.0037 -0.1332 0.2213 1627.3187
## s.e. 0.0901 0.1072 0.1073 0.0897 72.1904
##
## sigma^2 = 46752: log likelihood = -813.26
## AIC=1638.53 AICc=1639.27 BIC=1655.25
##
## =========================================
## MODELO 3 : ARIMA(1,0,1)
## TIPO: ARIMA
## =========================================
##
## Series: ts_menores_mensual
## ARIMA(1,0,1) with non-zero mean
##
## Coefficients:
## ar1 ma1 mean
## 0.6652 -0.0072 1630.7721
## s.e. 0.1066 0.1436 57.9356
##
## sigma^2 = 48359: log likelihood = -816.22
## AIC=1640.45 AICc=1640.8 BIC=1651.6
##
## =========================================
## MODELO 4 : ARIMA(1,0,0)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_menores_mensual
## ARIMA(1,0,0)(1,0,0)[12] with non-zero mean
##
## Coefficients:
## ar1 sar1 mean
## 0.7395 0.5253 1614.7078
## s.e. 0.0614 0.0795 121.5361
##
## sigma^2 = 35210: log likelihood = -799.25
## AIC=1606.49 AICc=1606.84 BIC=1617.64
##
## =========================================
## MODELO 5 : ARIMA(1,0,0)(2,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_menores_mensual
## ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
##
## Coefficients:
## ar1 sar1 sar2 mean
## 0.7487 0.4952 0.0596 1612.0298
## s.e. 0.0619 0.0926 0.0964 131.1417
##
## sigma^2 = 35360: log likelihood = -799.06
## AIC=1608.11 AICc=1608.64 BIC=1622.05
##
## =========================================
## MODELO 6 : ARIMA(1,0,1)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_menores_mensual
## ARIMA(1,0,1)(1,0,0)[12] with non-zero mean
##
## Coefficients:
## ar1 ma1 sar1 mean
## 0.7670 -0.0618 0.5267 1613.7083
## s.e. 0.0868 0.1516 0.0794 127.3368
##
## sigma^2 = 35451: log likelihood = -799.16
## AIC=1608.32 AICc=1608.85 BIC=1622.26
ARIMA
\(X_t = 1630.84 + 0.6612X_{t-1} + \varepsilon_t\) \(X_t = 1627.32 + 0.6564X_{t-1} - 0.0037X_{t-2} - 0.1332X_{t-3} + 0.2213X_{t-4} + \varepsilon_t\) \(X_t = 1630.77 + 0.6652X_{t-1} - 0.0072\,\varepsilon_{t-1} + \varepsilon_t\)
SARIMA
\(X_t = 1614.71 + 0.7395\,X_{t-1} + 0.5253\,X_{t-12} + \varepsilon_t\) \(X_t = 1612.03 + 0.7487\,X_{t-1} + 0.4952\,X_{t-12} + 0.0596\,X_{t-24} + \varepsilon_t\) \(X_t = 1613.71 + 0.7670\,X_{t-1} - 0.0618\,\varepsilon_{t-1} + 0.5267\,X_{t-12} + \varepsilon_t\)
Análisis de residuos de los modelos
En este contexto, un punto fundamental para evaluar la validez del modelo es verificar que los residuos se comporten como ruido blanco. Un proceso de ruido blanco se caracteriza por ser una secuencia de variables aleatorias independientes, con media cero, varianza finita y ausencia de autocorrelación. Si los residuos de un modelo se aproximan a este comportamiento, se concluye que el modelo ha capturado adecuadamente toda la estructura temporal presente en la serie, dejando únicamente componentes aleatorias no explicables. Por el contrario, residuos no estacionarios, no independientes o autocorrelacionados indicarían que el modelo está mal especificado.
Para esto se complementan las pruebas Ljung–Box y Shapiro–Wilk, estas pruebas permiten comparar los modelos con AICc similares y aportan validez adicional a la elección final, privilegiando aquel cuyos residuos sean más consistentes con las propiedades del ruido blanco. De esta manera, la selección del modelo no se basa únicamente en el AICc, sino también en la adecuación del comportamiento de los residuos, lo cual garantiza una elección más robusta y estadísticamente fundamentada.
Prueba Ljung–Box
Evalúa si los residuos presentan autocorrelación global hasta un cierto rezago \(h\).
Hipótesis
\[ \begin{cases} H_0: \text{Los residuos son independientes, no presentan autocorrelación.} \\ H_1: \text{Los residuos no son independientes, presentan autocorrelación.}\end{cases} \]
Interpretación del test
Prueba Shapiro–Wilk
Evalúa si los residuos provienen de una distribución normal.
Hipótesis
\[ \begin{cases} H_0: \text{Los residuos provienen de una distribución normal.} \\ H_1: \text{Los residuos no provienen de una distribución normal.}\end{cases} \] Interpretación del test
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0) with non-zero mean
## Q* = 71.193, df = 23, p-value = 7.948e-07
##
## Model df: 1. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(4,0,0) with non-zero mean
## Q* = 52.791, df = 20, p-value = 8.723e-05
##
## Model df: 4. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 71.182, df = 22, p-value = 4.304e-07
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0)(1,0,0)[12] with non-zero mean
## Q* = 19.483, df = 22, p-value = 0.6153
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
## Q* = 21.296, df = 21, p-value = 0.441
##
## Model df: 3. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1)(1,0,0)[12] with non-zero mean
## Q* = 19.374, df = 21, p-value = 0.5612
##
## Model df: 3. Total lags used: 24
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 1 ARIMA(1,0,0) ARIMA 1638.659 0.1 7.947839e-07 3.054644e-02
## 2 ARIMA(4,0,0) ARIMA 1639.272 0.1 8.722960e-05 7.244256e-02
## 3 ARIMA(1,0,1) ARIMA 1640.797 0.1 4.304034e-07 2.815432e-02
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1606.840 0.1 6.153378e-01 6.663029e-05
## 5 ARIMA(1,0,0)(2,0,0)[12] SARIMA 1608.638 0.1 4.410292e-01 3.721444e-05
## 6 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1608.848 0.1 5.611670e-01 2.470177e-05
Dado los test y los valores AICc el mejor modelo de los propuestos es ARIMA(1,0,0)(1,0,0)[12]
\(X_t = 1614.71 + 0.7395\,X_{t-1} + 0.5253\,X_{t-12} + \varepsilon_t\)
Graficos de residuos del mejor modelo de los seleccionados
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1606.84 0.1 0.6153378 6.663029e-05
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 1664 1801 1883 1767 1799 1596 1648 1783 1659 1498 1209 874
## 2016 1493 1563 1673 1605 1617 1579 1638 1665 1595 1453 1348 1187
## 2017 1320 1455 1652 1599 1954 1696 1727 1898 1946 1941 1793 1682
## 2018 1577 1741 1807 2066 2177 1860 1967 2219 2067 2202 1831 1280
## 2019 1896 1847 2060 1993 2141 1790 2023 1998 1992 1951 1585 1337
## 2020 1809 1926 1462 648 1101 1269 1270 1136 1286 1323 1183 957
## 2021 1551 1580 1793 1440 1322 1467 1518 1668 1738 1611 1565 1225
## 2022 1686 1757 2143 1926 1977 1870 1701 1913 1863 1777 1614 1268
## 2023 1680 1571 1829 1629 1833 1711 1638 1827 1762 1674 1456 1155
## 2024 1609 1496 1660 1739 1731 1367 1493 1480 1547 1554 1390 1009
## 2025 1438 1479 1603 1446 1581 1440 1487 1597 1581 1527 1321 1027
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 1664 1801 1883 1767 1799 1596 1648 1783 1659 1498 1209 874
## 2016 1493 1563 1673 1605 1617 1579 1638 1665 1595 1453 1348 1187
## 2017 1320 1455 1652 1599 1954 1696 1727 1898 1946 1941 1793 1682
## 2018 1577 1741 1807 2066 2177 1860 1967 2219 2067 2202 1831 1280
## 2019 1896 1847 2060 1993 2141 1790 2023 1998 1992 1951 1585 1337
## 2020 1809 1926 1462 648 1101 1269 1270 1136 1286 1323 1183 957
## 2021 1551 1580 1793 1440 1322 1467 1518 1668 1738 1611 1565 1225
## 2022 1686 1757 2143 1926 1977 1870 1701 1913 1863 1777 1614 1268
## 2023 1680 1571 1829 1629 1833 1711 1638 1827 1762 1674 1456 1155
## 2024 1609 1496 1660 1739 1731 1367 1493 1480 1547 1554 1390 1009
## 2025 1527 1620 1769 1664 1738 1626 1643 1761 1700 1566 1282 924
##
## Parámetros del modelo Holt-Winters:
## Holt-Winters exponential smoothing with trend and additive seasonal component.
##
## Call:
## HoltWinters(x = ts_menores_mensual)
##
## Smoothing parameters:
## alpha: 0.8073495
## beta : 0
## gamma: 0.2602097
##
## Coefficients:
## [,1]
## a 1610.377650
## b -7.115822
## s1 -76.100082
## s2 23.545103
## s3 179.637284
## s4 82.195354
## s5 162.854894
## s6 57.855022
## s7 82.173081
## s8 207.912645
## s9 154.148636
## s10 26.882177
## s11 -250.057853
## s12 -601.201574
| Valor | |
|---|---|
| n | 120.00 |
| mean | 304.17 |
| sd | 68.60 |
| var | 4705.72 |
| moda | 256.00 |
| min | 120.00 |
| max | 450.00 |
| rango | 330.00 |
| median | 294.00 |
| skew | 0.13 |
| kurtosis | -0.68 |
Gráficos
El diagrama de caja para mayores de edad revela una distribución con menor variabilidad relativa en comparación con el grupo de menores, mostrando un rango intercuartílico compacto que concentra el 50% central de los datos entre 255.5 (Q1) y 365 (Q3) casos mensuales. La posición casi central de la mediana y la cercana simetría en la dispersión de los bigotes confirman el coeficiente de asimetría cercano a cero (0.13) previamente calculado. La presencia de valores hacia el extremo superior, alcanzando hasta 450 casos mensuales, sugiere la ocurrencia periódica de meses con incidencia excepcionalmente alta dentro de una tendencia general más estable y predecible.
Ahora bien, partiendo de este histograma con curva de densidad se determina la distribución probabilística que mejor describe el comportamiento de los casos mensuales en mayores de edad mediante la función fitdist, evaluando distribuciones continuas (Normal, Log-Normal, Gamma, Weibull, Logística). Este análisis permitirá identificar el modelo teórico que más se ajusta a los datos observados, fundamentando inferencias estadísticas sobre exámenes médico-legales por presunto delito sexual en la población adulta.
## Distribucion AIC BIC
## 1 Normal 1358.325 1363.900
## 3 Gamma 1358.972 1364.547
## 4 Weibull 1360.377 1365.952
## 2 Log-Normal 1362.484 1368.059
## 5 Logística 1365.243 1370.818
Se revela que la distribución Normal presenta el mejor ajuste entre las distribuciones continuas, seguida muy de cerca por la distribución Gamma. La casi simetría observada en los datos (0.13) explica y complementa el buen desempeño de la distribución Normal como aproximación continua, pero recordando que la Binomial Negativa representa el modelo teóricamente más coherente con la naturaleza del fenómeno estudiado.
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 250 281 290 296 269 224 245 270 230 239 206 174
## 2016 259 276 247 250 264 237 256 277 237 256 213 211
## 2017 222 247 238 239 275 261 268 261 253 253 306 312
## 2018 271 256 260 280 299 256 272 275 263 323 254 262
## 2019 293 281 336 286 281 307 293 327 316 295 265 265
## 2020 343 314 210 120 163 206 215 220 217 232 244 200
## 2021 371 322 322 330 368 312 376 331 376 364 337 318
## 2022 415 406 450 382 413 379 337 418 376 380 350 304
## 2023 427 435 440 390 390 377 392 342 403 356 334 298
## 2024 436 408 381 380 391 386 372 416 384 355 353 325
El componente de tendencia presenta un aumento de las cifras de los exámenes medico-legales por presunto delito sexual momentos antes de iniciar el año 2021. Sin embargo, de 2022 hasta 2024 se evidencia una tendencia semejantemente plana. El componente de estacionariedad, evidencia que en los meses fines de año es cuando estos casos crecen y decrecen drásticamente. Por último, el componente de ruido situa dos eventos puntuales, uno entre 2017-2018 y otro entre 2020-2021.
##
## KPSS Test for Level Stationarity
##
## data: ts_mayores_mensual
## KPSS Level = 1.6862, Truncation lag parameter = 4, p-value = 0.01
Mediante el test de KPSS, la serie es no estacionaria dado que su p-valor es menor que \(0.05\) (Se rechaza \(H_0\)).
Aplicamos el número de diferencias necesarias para que la serie se vuelva estacionaria.
## [1] 1
Dado que se necesita aplicar una diferencia, la función “diff()” aplica diferenciación a una serie temporal calculando las diferencias entre observaciones consecutivas \((\nabla X_t = X_t - X_{t-1})\), eliminando así tendencias y componentes no estacionarios. Esta transformación es fundamental cuando el test indica no estacionariedad, ya que convierte la serie en estacionaria al remover dependencias temporales y estabilizar la media. Esto es con el fin de que las series cumplan con los supuestos de estacionariedad requeridos para la aplicación de metodologías en modelamiento de series temporales.
Por lo tanto, al ser aplicada una diferencia, el p-valor de la prueba KPSS es:
##
## KPSS Test for Level Stationarity
##
## data: ts_mayores_diff1
## KPSS Level = 0.04679, Truncation lag parameter = 4, p-value = 0.1
Mediante el test de KPSS, la serie ya transformada es estacionaria dado que su p-valor es mayor que \(0.05\) (No se rechaza \(H_0\)).
## MODELO CONSTANTE AICc TIPO
## 35 ARIMA(3,0,2) with zero mean 1208.573 ARIMA
## 36 ARIMA(3,0,2) with non-zero mean 1210.725 ARIMA
## 15 ARIMA(1,0,1) with zero mean 1212.831 ARIMA
## 43 ARIMA(0,0,2)(2,0,0)[12] with zero mean 1205.453 SARIMA
## 87 ARIMA(1,0,1)(2,0,0)[12] with zero mean 1205.568 SARIMA
## 27 ARIMA(0,0,1)(2,0,0)[12] with zero mean 1205.914 SARIMA
##
## =========================================
## MODELO 1 : ARIMA(3,0,2)
## TIPO: ARIMA
## =========================================
##
## Series: ts_mayores_diff1
## ARIMA(3,0,2) with zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1 ma2
## 0.7090 -0.5791 -0.2873 -1.1859 0.8997
## s.e. 0.1372 0.1009 0.0930 0.1055 0.1297
##
## sigma^2 = 1395: log likelihood = -597.91
## AIC=1207.82 AICc=1208.57 BIC=1224.5
##
## =========================================
## MODELO 2 : ARIMA(3,0,2)
## TIPO: ARIMA
## =========================================
##
## Series: ts_mayores_diff1
## ARIMA(3,0,2) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ma1 ma2 mean
## 0.7077 -0.5783 -0.2882 -1.1853 0.8989 0.6769
## s.e. 0.1374 0.1009 0.0930 0.1057 0.1303 2.0677
##
## sigma^2 = 1406: log likelihood = -597.86
## AIC=1209.72 AICc=1210.73 BIC=1229.17
##
## =========================================
## MODELO 3 : ARIMA(1,0,1)
## TIPO: ARIMA
## =========================================
##
## Series: ts_mayores_diff1
## ARIMA(1,0,1) with zero mean
##
## Coefficients:
## ar1 ma1
## 0.2921 -0.7375
## s.e. 0.1646 0.1202
##
## sigma^2 = 1503: log likelihood = -603.31
## AIC=1212.62 AICc=1212.83 BIC=1220.96
##
## =========================================
## MODELO 4 : ARIMA(0,0,2)(2,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_mayores_diff1
## ARIMA(0,0,2)(2,0,0)[12] with zero mean
##
## Coefficients:
## ma1 ma2 sar1 sar2
## -0.4004 -0.1428 0.2164 0.2052
## s.e. 0.0911 0.0880 0.0905 0.0962
##
## sigma^2 = 1365: log likelihood = -597.46
## AIC=1204.92 AICc=1205.45 BIC=1218.82
##
## =========================================
## MODELO 5 : ARIMA(1,0,1)(2,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_mayores_diff1
## ARIMA(1,0,1)(2,0,0)[12] with zero mean
##
## Coefficients:
## ar1 ma1 sar1 sar2
## 0.2811 -0.6846 0.2171 0.1996
## s.e. 0.1807 0.1380 0.0907 0.0953
##
## sigma^2 = 1367: log likelihood = -597.52
## AIC=1205.04 AICc=1205.57 BIC=1218.93
##
## =========================================
## MODELO 6 : ARIMA(0,0,1)(2,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_mayores_diff1
## ARIMA(0,0,1)(2,0,0)[12] with zero mean
##
## Coefficients:
## ma1 sar1 sar2
## -0.4749 0.2446 0.1727
## s.e. 0.0949 0.0906 0.0953
##
## sigma^2 = 1385: log likelihood = -598.78
## AIC=1205.56 AICc=1205.91 BIC=1216.68
ARIMA
\(X_t = 0.7090X_{t-1} - 0.5791X_{t-2} - 0.2873X_{t-3} - 1.1859\varepsilon_{t-1} + 0.8997\varepsilon_{t-2} + \varepsilon_t\) \(X_t = 0.6769 + 0.7077X_{t-1} - 0.5783X_{t-2} - 0.2882X_{t-3} - 1.1853\varepsilon_{t-1} + 0.8989\varepsilon_{t-2} + \varepsilon_t\) \(X_t = 0.2921X_{t-1} - 0.7375\varepsilon_{t-1} + \varepsilon_t\)
SARIMA
\(X_t = -0.4004\,\varepsilon_{t-1} - 0.1428\,\varepsilon_{t-2} + 0.2164\,X_{t-12} + 0.2052\,X_{t-24} + \varepsilon_t\) \(X_t = 0.2811\,X_{t-1} - 0.6846\,\varepsilon_{t-1} + 0.2171\,X_{t-12} + 0.1996\,X_{t-24} + \varepsilon_t\) \(X_t = -0.4749\,\varepsilon_{t-1} + 0.2446\,X_{t-12} + 0.1727\,X_{t-24} + \varepsilon_t\)
Análisis de residuos de los modelos
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,0,2) with zero mean
## Q* = 32.196, df = 19, p-value = 0.0297
##
## Model df: 5. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(3,0,2) with non-zero mean
## Q* = 32.188, df = 19, p-value = 0.02976
##
## Model df: 5. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1) with zero mean
## Q* = 41.205, df = 22, p-value = 0.00779
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,2)(2,0,0)[12] with zero mean
## Q* = 32.837, df = 20, p-value = 0.03516
##
## Model df: 4. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1)(2,0,0)[12] with zero mean
## Q* = 33.466, df = 20, p-value = 0.02997
##
## Model df: 4. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,1)(2,0,0)[12] with zero mean
## Q* = 42.107, df = 21, p-value = 0.004079
##
## Model df: 3. Total lags used: 24
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 1 ARIMA(3,0,2) ARIMA 1208.573 0.1 0.029698669 0.039723577
## 2 ARIMA(3,0,2) ARIMA 1210.725 0.1 0.029763452 0.040024223
## 3 ARIMA(1,0,1) ARIMA 1212.831 0.1 0.007790307 0.001092186
## 4 ARIMA(0,0,2)(2,0,0)[12] SARIMA 1205.453 0.1 0.035158971 0.004251972
## 5 ARIMA(1,0,1)(2,0,0)[12] SARIMA 1205.568 0.1 0.029970804 0.003206295
## 6 ARIMA(0,0,1)(2,0,0)[12] SARIMA 1205.914 0.1 0.004079127 0.005901964
Mejor modelo seleccionado ARIMA(0,0,2)(2,0,0)[12] bajo el criterio AICc y los test
\(X_t = -0.4004\,\varepsilon_{t-1} - 0.1428\,\varepsilon_{t-2} + 0.2164\,X_{t-12} + 0.2052\,X_{t-24} + \varepsilon_t\)
Graficos de residuos del mejor modelo de los seleccionados
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 4 ARIMA(0,0,2)(2,0,0)[12] SARIMA 1205.453 0.1 0.03515897 0.004251972
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 250 281 290 296 269 224 245 270 230 239 206 174
## 2016 259 276 247 250 264 237 256 277 237 256 213 211
## 2017 222 247 238 239 275 261 268 261 253 253 306 312
## 2018 271 256 260 280 299 256 272 275 263 323 254 262
## 2019 293 281 336 286 281 307 293 327 316 295 265 265
## 2020 343 314 210 120 163 206 215 220 217 232 244 200
## 2021 371 322 322 330 368 312 376 331 376 364 337 318
## 2022 415 406 450 382 413 379 337 418 376 380 350 304
## 2023 427 435 440 390 390 377 392 342 403 356 334 298
## 2024 436 408 381 380 391 386 372 416 384 355 353 325
## 2025 403 393 383 358 376 360 369 374 367 369 348 328
Los casos en menores de edad son más altos que en mayores de edad, y es una brecha que se mantiene de manera constante a lo largo de los años, evidenciando que la población menor de 18 años es la más vulnerable frente a este tipo de delito.
Además, ambos grupos presentan una disminución marcada en 2020, año asociado a las restricciones de movilidad y cambios sociales por la pandemia de COVID-19, lo que pudo afectar la denuncia, el acceso a servicios de salud, o la visibilidad de los casos (Betancourt, 2022).
Sin embargo, tras ese descenso temporal, los casos vuelven a incrementarse, lo que sugiere que la problemática no desapareció: solo se ocultó o se vio afectada por el contexto sanitario.
Una posible solución consiste en fortalecer las rutas de prevención, atención y denuncia específicamente dirigidas a menores de edad, ya que son el grupo con mayor número de casos según los datos. Esto implica:
## # A tibble: 36 × 4
## Año Mes Hombres Mujeres
## <chr> <fct> <int> <int>
## 1 2015 Enero 281 1633
## 2 2015 Febrero 297 1785
## 3 2015 Marzo 318 1855
## 4 2015 Abril 299 1764
## 5 2015 Mayo 283 1785
## 6 2015 Junio 282 1538
## 7 2015 Julio 268 1625
## 8 2015 Agosto 322 1731
## 9 2015 Septiembre 300 1589
## 10 2015 Octubre 288 1449
## # ℹ 26 more rows
## Coeficiente de correlación (r): 0.7538
| Valor | |
|---|---|
| n | 120.00 |
| mean | 1682.87 |
| sd | 281.56 |
| var | 79276.52 |
| moda | 1785.00 |
| min | 650.00 |
| max | 2313.00 |
| rango | 1663.00 |
| median | 1726.50 |
| skew | -0.76 |
| kurtosis | 0.81 |
Gráficos
## Distribucion AIC BIC
## 4 Weibull 1687.245 1692.820
## 5 Logística 1695.011 1700.586
## 1 Normal 1697.225 1702.800
## 3 Gamma 1712.679 1718.254
## 2 Log-Normal 1723.324 1728.899
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 1633 1785 1855 1764 1785 1538 1625 1731 1589 1449 1206 916
## 2016 1485 1583 1639 1593 1588 1527 1608 1653 1564 1479 1350 1188
## 2017 1337 1453 1617 1580 1881 1700 1722 1833 1897 1851 1831 1717
## 2018 1590 1710 1755 2030 2093 1811 1930 2131 2027 2130 1809 1293
## 2019 1902 1826 2084 1951 2048 1804 1991 1993 2001 1949 1587 1387
## 2020 1857 1896 1416 650 1067 1278 1259 1173 1282 1348 1230 1014
## 2021 1692 1652 1847 1544 1491 1529 1660 1748 1876 1741 1662 1351
## 2022 1840 1906 2313 2048 2125 1971 1795 2082 1988 1870 1755 1353
## 2023 1855 1785 1994 1791 1953 1838 1766 1897 1929 1771 1571 1269
## 2024 1781 1650 1780 1878 1855 1550 1631 1637 1706 1657 1542 1165
##
## KPSS Test for Level Stationarity
##
## data: ts_mujeres_mensual
## KPSS Level = 0.15622, Truncation lag parameter = 4, p-value = 0.1
## [1] 0
## MODELO CONSTANTE AICc TIPO
## 38 ARIMA(4,0,0) with non-zero mean 1630.879 ARIMA
## 14 ARIMA(1,0,0) with non-zero mean 1631.788 ARIMA
## 42 ARIMA(5,0,0) with non-zero mean 1632.706 ARIMA
## 66 ARIMA(1,0,0)(1,0,0)[12] with non-zero mean 1601.164 SARIMA
## 72 ARIMA(1,0,0)(2,0,0)[12] with non-zero mean 1601.848 SARIMA
## 82 ARIMA(1,0,1)(1,0,0)[12] with non-zero mean 1603.276 SARIMA
##
## =========================================
## MODELO 1 : ARIMA(4,0,0)
## TIPO: ARIMA
## =========================================
##
## Series: ts_mujeres_mensual
## ARIMA(4,0,0) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 mean
## 0.6519 0.0140 -0.1652 0.2457 1670.9785
## s.e. 0.0894 0.1061 0.1061 0.0887 71.0589
##
## sigma^2 = 43577: log likelihood = -809.07
## AIC=1630.14 AICc=1630.88 BIC=1646.86
##
## =========================================
## MODELO 2 : ARIMA(1,0,0)
## TIPO: ARIMA
## =========================================
##
## Series: ts_mujeres_mensual
## ARIMA(1,0,0) with non-zero mean
##
## Coefficients:
## ar1 mean
## 0.6625 1673.8725
## s.e. 0.0689 56.2328
##
## sigma^2 = 45280: log likelihood = -812.79
## AIC=1631.58 AICc=1631.79 BIC=1639.94
##
## =========================================
## MODELO 3 : ARIMA(5,0,0)
## TIPO: ARIMA
## =========================================
##
## Series: ts_mujeres_mensual
## ARIMA(5,0,0) with non-zero mean
##
## Coefficients:
## ar1 ar2 ar3 ar4 ar5 mean
## 0.6366 0.0241 -0.1664 0.2068 0.0599 1670.3868
## s.e. 0.0922 0.1071 0.1060 0.1066 0.0912 74.7112
##
## sigma^2 = 43797: log likelihood = -808.85
## AIC=1631.71 AICc=1632.71 BIC=1651.22
##
## =========================================
## MODELO 4 : ARIMA(1,0,0)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_mujeres_mensual
## ARIMA(1,0,0)(1,0,0)[12] with non-zero mean
##
## Coefficients:
## ar1 sar1 mean
## 0.7508 0.5178 1660.6306
## s.e. 0.0600 0.0799 122.3145
##
## sigma^2 = 33608: log likelihood = -796.41
## AIC=1600.82 AICc=1601.16 BIC=1611.97
##
## =========================================
## MODELO 5 : ARIMA(1,0,0)(2,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_mujeres_mensual
## ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
##
## Coefficients:
## ar1 sar1 sar2 mean
## 0.7693 0.4612 0.1174 1657.849
## s.e. 0.0591 0.0904 0.0952 143.281
##
## sigma^2 = 33342: log likelihood = -795.66
## AIC=1601.32 AICc=1601.85 BIC=1615.26
##
## =========================================
## MODELO 6 : ARIMA(1,0,1)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_mujeres_mensual
## ARIMA(1,0,1)(1,0,0)[12] with non-zero mean
##
## Coefficients:
## ar1 ma1 sar1 mean
## 0.7661 -0.0365 0.5174 1660.4309
## s.e. 0.0827 0.1433 0.0799 125.2931
##
## sigma^2 = 33878: log likelihood = -796.38
## AIC=1602.75 AICc=1603.28 BIC=1616.69
ARIMA
\(X_t = 1670.9785 + 0.6519\,X_{t-1} + 0.0140\,X_{t-2} - 0.1652\,X_{t-3} + 0.2457\,X_{t-4} + \varepsilon_t\) \(X_t = 1673.8725 + 0.6625\,X_{t-1} + \varepsilon_t\) \(X_t = 1670.3868 + 0.6366\,X_{t-1} + 0.0241\,X_{t-2} - 0.1664\,X_{t-3} + 0.2068\,X_{t-4} + 0.0599\,X_{t-5} + \varepsilon_t\)
SARIMA
\(X_t = 1660.6306 +0.7508\,X_{t-1} + 0.5178\,X_{t-12} + \varepsilon_t\) \(X_t = 1657.849+ 0.7693\,X_{t-1}+ 0.4612\,X_{t-12}+ 0.1174\,X_{t-24}+ \varepsilon_t\) \(X_t = 1660.4309+ 0.7661\,X_{t-1}- 0.0365\,\varepsilon_{t-1}+ 0.5174\,X_{t-12}+ \varepsilon_t\)
Análisis de residuos de los modelos
##
## Ljung-Box test
##
## data: Residuals from ARIMA(4,0,0) with non-zero mean
## Q* = 57.849, df = 20, p-value = 1.524e-05
##
## Model df: 4. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0) with non-zero mean
## Q* = 84.283, df = 23, p-value = 6.345e-09
##
## Model df: 1. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(5,0,0) with non-zero mean
## Q* = 57.278, df = 19, p-value = 1.034e-05
##
## Model df: 5. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0)(1,0,0)[12] with non-zero mean
## Q* = 29.917, df = 22, p-value = 0.1205
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
## Q* = 32.966, df = 21, p-value = 0.0466
##
## Model df: 3. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1)(1,0,0)[12] with non-zero mean
## Q* = 29.427, df = 21, p-value = 0.1041
##
## Model df: 3. Total lags used: 24
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 1 ARIMA(4,0,0) ARIMA 1630.879 0.1 1.524423e-05 2.330197e-02
## 2 ARIMA(1,0,0) ARIMA 1631.788 0.1 6.344872e-09 1.842262e-02
## 3 ARIMA(5,0,0) ARIMA 1632.706 0.1 1.034370e-05 1.476182e-02
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1601.164 0.1 1.204955e-01 7.530904e-05
## 5 ARIMA(1,0,0)(2,0,0)[12] SARIMA 1601.848 0.1 4.659564e-02 2.572275e-05
## 6 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1603.276 0.1 1.041108e-01 4.192769e-05
Mejor modelo seleccionado bajo los criterios presentados ARIMA(1,0,0)(1,0,0)[12]
\(X_t = 1660.6306 +0.7508\,X_{t-1} + 0.5178\,X_{t-12} + \varepsilon_t\)
Graficos de residuos del mejor modelo de los seleccionados
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1601.164 0.1 0.1204955 7.530904e-05
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 1633 1785 1855 1764 1785 1538 1625 1731 1589 1449 1206 916
## 2016 1485 1583 1639 1593 1588 1527 1608 1653 1564 1479 1350 1188
## 2017 1337 1453 1617 1580 1881 1700 1722 1833 1897 1851 1831 1717
## 2018 1590 1710 1755 2030 2093 1811 1930 2131 2027 2130 1809 1293
## 2019 1902 1826 2084 1951 2048 1804 1991 1993 2001 1949 1587 1387
## 2020 1857 1896 1416 650 1067 1278 1259 1173 1282 1348 1230 1014
## 2021 1692 1652 1847 1544 1491 1529 1660 1748 1876 1741 1662 1351
## 2022 1840 1906 2313 2048 2125 1971 1795 2082 1988 1870 1755 1353
## 2023 1855 1785 1994 1791 1953 1838 1766 1897 1929 1771 1571 1269
## 2024 1781 1650 1780 1878 1855 1550 1631 1637 1706 1657 1542 1165
## 2025 1686 1777 1888 1791 1842 1721 1757 1865 1790 1649 1414 1097
##
## Parámetros del modelo Holt-Winters:
## Holt-Winters exponential smoothing with trend and additive seasonal component.
##
## Call:
## HoltWinters(x = ts_mujeres_mensual)
##
## Smoothing parameters:
## alpha: 0.8777221
## beta : 0
## gamma: 0.3681356
##
## Coefficients:
## [,1]
## a 1725.109392
## b -5.995484
## s1 -33.566023
## s2 64.087928
## s3 180.513656
## s4 89.549107
## s5 147.365734
## s6 31.807931
## s7 74.333267
## s8 187.415119
## s9 118.417779
## s10 -16.183621
## s11 -245.467270
## s12 -556.063713
| Valor | |
|---|---|
| n | 120.00 |
| mean | 261.73 |
| sd | 48.20 |
| var | 2323.64 |
| moda | 268.00 |
| min | 118.00 |
| max | 395.00 |
| rango | 277.00 |
| median | 261.50 |
| skew | -0.06 |
| kurtosis | 0.63 |
Gráficos
## Distribucion AIC BIC
## 5 Logística 1270.830 1276.405
## 1 Normal 1273.648 1279.223
## 4 Weibull 1278.505 1284.080
## 3 Gamma 1279.537 1285.112
## 2 Log-Normal 1285.578 1291.153
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 281 297 318 299 283 282 268 322 300 288 209 132
## 2016 267 256 281 262 293 289 286 289 268 230 211 210
## 2017 205 249 273 258 348 257 273 326 302 343 268 277
## 2018 258 287 312 316 383 305 309 363 303 395 276 249
## 2019 287 302 312 328 374 293 325 332 307 297 263 215
## 2020 295 344 256 118 197 197 226 183 221 207 197 143
## 2021 230 250 269 226 199 250 235 251 238 234 240 192
## 2022 261 257 280 260 265 278 243 249 251 287 209 219
## 2023 252 221 275 228 270 250 264 272 236 259 219 184
## 2024 264 254 261 241 267 203 234 259 225 252 201 169
##
## KPSS Test for Level Stationarity
##
## data: ts_hombres_mensual
## KPSS Level = 0.71438, Truncation lag parameter = 4, p-value = 0.01224
## [1] 1
##
## KPSS Test for Level Stationarity
##
## data: ts_hombres_diff1
## KPSS Level = 0.052259, Truncation lag parameter = 4, p-value = 0.1
## MODELO CONSTANTE AICc TIPO
## 15 ARIMA(1,0,1) with zero mean 1218.676 ARIMA
## 5 ARIMA(0,0,2) with zero mean 1219.092 ARIMA
## 16 ARIMA(1,0,1) with non-zero mean 1220.405 ARIMA
## 81 ARIMA(1,0,1)(1,0,0)[12] with zero mean 1197.613 SARIMA
## 37 ARIMA(0,0,2)(1,0,0)[12] with zero mean 1197.669 SARIMA
## 21 ARIMA(0,0,1)(1,0,0)[12] with zero mean 1198.086 SARIMA
##
## =========================================
## MODELO 1 : ARIMA(1,0,1)
## TIPO: ARIMA
## =========================================
##
## Series: ts_hombres_diff1
## ARIMA(1,0,1) with zero mean
##
## Coefficients:
## ar1 ma1
## 0.2747 -0.8121
## s.e. 0.1317 0.0836
##
## sigma^2 = 1576: log likelihood = -606.23
## AIC=1218.47 AICc=1218.68 BIC=1226.8
##
## =========================================
## MODELO 2 : ARIMA(0,0,2)
## TIPO: ARIMA
## =========================================
##
## Series: ts_hombres_diff1
## ARIMA(0,0,2) with zero mean
##
## Coefficients:
## ma1 ma2
## -0.5499 -0.1702
## s.e. 0.0881 0.0876
##
## sigma^2 = 1581: log likelihood = -606.44
## AIC=1218.88 AICc=1219.09 BIC=1227.22
##
## =========================================
## MODELO 3 : ARIMA(1,0,1)
## TIPO: ARIMA
## =========================================
##
## Series: ts_hombres_diff1
## ARIMA(1,0,1) with non-zero mean
##
## Coefficients:
## ar1 ma1 mean
## 0.2767 -0.8170 -0.6115
## s.e. 0.1320 0.0836 0.9495
##
## sigma^2 = 1583: log likelihood = -606.03
## AIC=1220.05 AICc=1220.41 BIC=1231.17
##
## =========================================
## MODELO 4 : ARIMA(1,0,1)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_hombres_diff1
## ARIMA(1,0,1)(1,0,0)[12] with zero mean
##
## Coefficients:
## ar1 ma1 sar1
## 0.2357 -0.7487 0.4520
## s.e. 0.1462 0.1021 0.0864
##
## sigma^2 = 1280: log likelihood = -594.63
## AIC=1197.26 AICc=1197.61 BIC=1208.38
##
## =========================================
## MODELO 5 : ARIMA(0,0,2)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_hombres_diff1
## ARIMA(0,0,2)(1,0,0)[12] with zero mean
##
## Coefficients:
## ma1 ma2 sar1
## -0.5152 -0.1417 0.4548
## s.e. 0.0897 0.0891 0.0860
##
## sigma^2 = 1280: log likelihood = -594.66
## AIC=1197.32 AICc=1197.67 BIC=1208.43
##
## =========================================
## MODELO 6 : ARIMA(0,0,1)(1,0,0)[12]
## TIPO: SARIMA
## =========================================
##
## Series: ts_hombres_diff1
## ARIMA(0,0,1)(1,0,0)[12] with zero mean
##
## Coefficients:
## ma1 sar1
## -0.5995 0.4644
## s.e. 0.0870 0.0854
##
## sigma^2 = 1295: log likelihood = -595.94
## AIC=1197.88 AICc=1198.09 BIC=1206.21
ARIMA
\(X_t = 0.2747\,X_{t-1} - 0.8121\,\varepsilon_{t-1} + \varepsilon_t\) \(X_t = -0.5499\,\varepsilon_{t-1} - 0.1702\,\varepsilon_{t-2} + \varepsilon_t\) \(X_t = - 0.6115 + 0.2767\,X_{t-1} - 0.8170\,\varepsilon_{t-1} + \varepsilon_t\)
SARIMA
\(X_t = 0.2357\,X_{t-1} - 0.7487\,\varepsilon_{t-1} + 0.4520\,X_{t-12} + \varepsilon_t\) \(X_t = -0.5152\,\varepsilon_{t-1} - 0.1417\,\varepsilon_{t-2} + 0.4548\,X_{t-12} + \varepsilon_t\) \(X_t = -0.5995\,\varepsilon_{t-1} + 0.4644\,X_{t-12} + \varepsilon_t\)
Análisis de residuos de los modelos
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1) with zero mean
## Q* = 43.559, df = 22, p-value = 0.004025
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,2) with zero mean
## Q* = 44.626, df = 22, p-value = 0.002959
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 43.353, df = 22, p-value = 0.004269
##
## Model df: 2. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(1,0,1)(1,0,0)[12] with zero mean
## Q* = 15.662, df = 21, p-value = 0.7884
##
## Model df: 3. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,2)(1,0,0)[12] with zero mean
## Q* = 15.708, df = 21, p-value = 0.7858
##
## Model df: 3. Total lags used: 24
##
##
## Ljung-Box test
##
## data: Residuals from ARIMA(0,0,1)(1,0,0)[12] with zero mean
## Q* = 14.671, df = 22, p-value = 0.876
##
## Model df: 2. Total lags used: 24
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 1 ARIMA(1,0,1) ARIMA 1218.676 0.1 0.004025067 1.198546e-02
## 2 ARIMA(0,0,2) ARIMA 1219.092 0.1 0.002959052 1.291841e-02
## 3 ARIMA(1,0,1) ARIMA 1220.405 0.1 0.004269180 1.148218e-02
## 4 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1197.613 0.1 0.788356255 8.036422e-05
## 5 ARIMA(0,0,2)(1,0,0)[12] SARIMA 1197.669 0.1 0.785815011 1.343684e-04
## 6 ARIMA(0,0,1)(1,0,0)[12] SARIMA 1198.086 0.1 0.875964189 2.095781e-05
Mejor modelo seleccionado de los propuestos teniendo presente los test y los valores AICc ARIMA(1,0,1)(1,0,0)[12]
\(X_t = 0.2357\,X_{t-1} - 0.7487\,\varepsilon_{t-1} + 0.4520\,X_{t-12} + \varepsilon_t\)
Graficos de residuos del mejor modelo de los seleccionados
## MODELO TIPO AICc KPSS_p LjungBox_p Shapiro_p
## 4 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1197.613 0.1 0.7883563 8.036422e-05
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 281 297 318 299 283 282 268 322 300 288 209 132
## 2016 267 256 281 262 293 289 286 289 268 230 211 210
## 2017 205 249 273 258 348 257 273 326 302 343 268 277
## 2018 258 287 312 316 383 305 309 363 303 395 276 249
## 2019 287 302 312 328 374 293 325 332 307 297 263 215
## 2020 295 344 256 118 197 197 226 183 221 207 197 143
## 2021 230 250 269 226 199 250 235 251 238 234 240 192
## 2022 261 257 280 260 265 278 243 249 251 287 209 219
## 2023 252 221 275 228 270 250 264 272 236 259 219 184
## 2024 264 254 261 241 267 203 234 259 225 252 201 169
## 2025 229 237 250 222 258 230 235 248 234 244 203 170
A lo largo de toda la serie, los casos en mujeres son significativamente superiores, superando de manera estable en más de cinco a siete veces las cifras registradas en hombres. Esta brecha se mantiene de forma persistente durante toda la década, lo que refleja una mayor vulnerabilidad estructural de las mujeres frente a este delito.
En ambos grupos se observa nuevamente una disminución abrupta en 2020, asociada al periodo de pandemia por COVID-19. Durante ese año, se reducen los reportes tanto en hombres como en mujeres, especialmente entre abril y junio. Sin embargo, la caída es más marcada en mujeres en términos absolutos debido a la magnitud de sus cifras. Como ya lo documenta Betancourt (2022), las restricciones de movilidad y el confinamiento pudieron afectar el acceso a los servicios médico-legales, la denuncia o la visibilización de los casos.
Dada la magnitud y constancia de los casos en mujeres, una posible solución está en fortalecer y focalizar las estrategias de prevención, protección y atención específicamente hacia ellas, sin dejar de lado la visibilización y apoyo para hombres víctimas, quienes aunque representan menos casos, continúan mostrando cifras relevantes.
Al integrar los resultados de las cuatro series analizadas (menores de edad, mayores de edad, mujeres y hombres) se evidencia un patrón claro y consistente: las niñas y adolescentes mujeres representan el grupo con mayor cantidad de exámenes médico-legales por presunto delito sexual en Colombia entre 2015 y 2024. La intersección entre ser menor de edad y ser mujer concentra la mayor carga de casos, superando ampliamente a los hombres y a las personas adultas. Esta tendencia se mantiene estable en el tiempo, lo que refleja una situación estructural de alta vulnerabilidad para las niñas, quienes enfrentan riesgos significativamente mayores.
Por otro lado, aunque los adultos y los hombres también registran casos importantes, sus niveles son considerablemente inferiores. Tanto en menores como en adultos se observó una disminución marcada en el año 2020, asociada a las restricciones y a la limitación en el acceso a servicios durante la pandemia, más no a una reducción real del delito. Posterior a este periodo, las cifras vuelven a incrementarse, reforzando la idea de que la problemática persiste como es mostrado en la previsión. En conjunto, las series muestran que el fenómeno afecta a todos los grupos, pero su impacto es desproporcionado en niñas y mujeres jóvenes, quienes deben ser el foco prioritario de las estrategias de prevención y protección.
Observatorio. (2025). Cifras estadísticas – Forensis. Recuperado el 01 de noviembre de 2025 de: <https://www.medicinalegal.gov.co/>.
Observatorio. (2025). Datos abiertos – Exámenes médico legales. Recuperado el 19 de septiembre de 2025 de: <https://www.datos.gov.co/>.
López, A. J. (2002). Contrastes de estacionariedad en series con un cambio en la media. Revista de Economía Aplicada, 10(29), 107–134. Disponible en: <http://www.redalyc.org/articulo.oa?id=96917636005>.
Tróchez González, J., & Valencia Cárdenas, M. (2014). Análisis de series temporales en el sector lácteo de Antioquia para detectar efectos de la apertura comercial. Revista Investigaciones Aplicadas. Disponible en: <http://hdl.handle.net/20.500.11912/6814>.
Betancourt, G. A. D. (2022). Exámenes médico-legales por
presunto delito sexual. Datos para la vida. Página 144. Disponible
en:
<https://www.medicinalegal.gov.co/documents/20143/989825/Forensis_2022.pdf#page=145>.
Nurkholis, Z. (2023). A Practical Guide to ARIMA with
auto.arima Function in R. Medium. Disponible en:
<https://medium.com/@mouse3mic3/a-practical-guide-to-arima-with-auto-arima-function-in-r-252aa84232af>.
Cowpertwait, P. S., & Metcalfe, A. V. (2009).
Introductory Time Series with R. Springer. Disponible en:
<http://repository.cinec.edu/bitstream/cinec20/1223/1/2009_Book_IntroductoryTimeSeriesWithR.pdf>.