1 Justificación de estudio

El delito sexual constituye una grave vulneración de los derechos humanos y un problema crítico de salud pública, cuyas consecuencias afectan de manera profunda la integridad física, emocional y social de las víctimas. En el contexto colombiano, contar con análisis estadísticos desagregados que permitan examinar el comportamiento del fenómeno según grupos etarios y sexos biológicos resulta indispensable para comprender sus dinámicas y diseñar estrategias de prevención y atención más efectivas.

Este proyecto se justifica en la necesidad de caracterizar la tendencia temporal mensual de los exámenes médico-legales por presunto delito sexual registrados entre 2015 y 2024, utilizando datos oficiales del Instituto Nacional de Medicina Legal. El estudio se desarrollará con un enfoque diferencial que permita comparar la evolución del fenómeno entre menores y mayores de edad, así como entre hombres y mujeres, identificando patrones, estacionalidades, variaciones significativas y posibles puntos de inflexión en las series. Generar esta evidencia contribuye a fortalecer la toma de decisiones institucionales, orientar políticas públicas basadas en datos y promover intervenciones más oportunas y focalizadas, acordes con las particularidades de cada población afectada.

2 Importancia de las series de tiempo

El uso de series de tiempo resulta fundamental en este estudio porque permite analizar la evolución mensual de los exámenes médico-legales por presunto delito sexual a lo largo de una década, identificando tendencias, comportamientos recurrentes y posibles cambios estructurales en el fenómeno. Esta herramienta estadística no solo facilita comprender cómo varían los casos en función del tiempo, sino que también permite comparar de manera rigurosa las dinámicas entre grupos etarios y sexos biológicos. Gracias a ello, es posible generar evidencia sólida que respalde la toma de decisiones, la formulación de políticas públicas y la focalización de intervenciones preventivas basadas en patrones reales observados en la población colombiana.

3 Descripción de la base de datos

Para el desarrollo de este estudio se utilizó la base de datos oficial “Exámenes médico legales por presunto delito sexual. Colombia, años 2015 a 2024. Cifras definitivas”, suministrada por el Instituto Nacional de Medicina Legal y Ciencias Forenses, la cual comprende un total de 233,352 observaciones correspondientes a casos individuales de exámenes practicados (donde cada fila representa un caso único), estructurada originalmente en 32 variables que recopilan información demográfica, geográfica y contextual de cada evento. Para los fines específicos de este análisis de series temporales, se realizó una selección estratégica de variables clave: “Año del hecho”, “Mes del hecho” que permiten la agregación temporal de los casos, “Grupo Mayor Menor de Edad” y “Sexo de la victima”, variables categóricas fundamentales que discriminan entre víctimas “Mayor de Edad (>18 Años)” “Menor de Edad (<18 Años)” y “Mujer”Hombre”, identificándose únicamente 2 casos sin información en grupo etario durante todo el periodo de estudio. A partir de la frecuencia mensual de estas categorías se calcularon estadísticos descriptivos y se construyeron las visualizaciones que sustentan el análisis comparativo de las tendencias temporales entre ambos grupos poblacionales a lo largo del periodo estudiado.

## Rows: 233,352
## Columns: 7
## $ ID                            <chr> "1", "2", "3", "4", "5", "6", "7", "8", …
## $ `Año del hecho`               <chr> "2015", "2015", "2015", "2015", "2015", …
## $ `Sexo de la victima`          <chr> "Hombre", "Hombre", "Mujer", "Mujer", "M…
## $ `Grupo Mayor Menor de Edad`   <chr> "a) Menor de Edad (<18 Años)", "a) Menor…
## $ `Mes del hecho`               <chr> "Junio", "Agosto", "Febrero", "Junio", "…
## $ `Departamento del hecho DANE` <chr> "Cundinamarca", "Norte de Santander", "A…
## $ `Código Dane Departamento`    <chr> "25", "54", "8", "63", "52", "8", "17", …

4 Análisis por grupo etario (Menor de edad, Mayor de edad)

## # A tibble: 36 × 5
##    Año   Mes        Menores Mayores `c) Sin información`
##    <chr> <fct>        <int>   <int>                <int>
##  1 2015  Enero         1664     250                    0
##  2 2015  Febrero       1801     281                    0
##  3 2015  Marzo         1883     290                    0
##  4 2015  Abril         1767     296                    0
##  5 2015  Mayo          1799     269                    0
##  6 2015  Junio         1596     224                    0
##  7 2015  Julio         1648     245                    0
##  8 2015  Agosto        1783     270                    0
##  9 2015  Septiembre    1659     230                    0
## 10 2015  Octubre       1498     239                    0
## # ℹ 26 more rows

4.1 Correlación

Se analiza la relación lineal entre los casos mensuales de menores y mayores de edad mediante el coeficiente de correlación de Pearson, el cual cuantifica la dirección y fuerza de asociación entre ambas variables, con valores que oscilan entre -1 (correlación negativa perfecta) y +1 (correlación positiva perfecta), teniendo en cuenta a cero como correlación nula. La aplicación de esta medida es fundamental para determinar si existen patrones temporales compartidos entre los grupos etarios, lo que permitiría identificar factores de riesgo comunes o diferenciados en la victimización sexual.

## Coeficiente de correlación (r): 0.3647

Se identifica una correlación positiva débil entre los casos mensuales de menores y mayores de edad, indicando que existe una tendencia leve a que cuando aumentan los exámenes médico-legales en un grupo, también lo hagan en el otro, aunque esta relación no es fuerte.

5 Serie 1 - Grupo etario Menores de edad

5.1 Análisis descriptivo

Estadísticos Descriptivos - Menores de Edad
Valor
n 120.00
mean 1640.42
sd 288.00
var 82946.67
moda 1493.00
min 648.00
max 2219.00
rango 1571.00
median 1662.00
skew -0.56
kurtosis 0.52

El análisis descriptivo mensual para menores de edad revela un promedio de 1640 casos mensuales con una mediana de 1662, indicando una distribución ligeramente concentrada en valores altos. La desviación estándar de 288 casos y el amplio rango de 1571 evidencian una variabilidad significativa entre meses, confirmada por el coeficiente de asimetría de -0.56 que señala una cola hacia valores bajos. La curtosis de 0.52 indica una distribución más puntiaguda que la normal, mientras que la moda en 1493 casos (por debajo de la media) sugiere meses frecuentes con menor incidencia. Estos resultados, destacan la necesidad de implementar estrategias diferenciadas que consideren esta variabilidad mensual, particularmente para los periodos que alcanzan hasta 2219 casos mensuales.

Gráficos

Se complementa el análisis descriptivo mediante visualizaciones que revelan la estructura distribucional de los casos mensuales en menores de edad. El boxplot evidencia la dispersión y valores extremos, mientras el histograma de densidad muestra la forma sugerida por los estadísticos de asimetría y curtosis, proporcionando una comprensión gráfica integral de la variabilidad temporal del fenómeno.

El diagrama de caja confirma la significativa variabilidad mensual en los casos de menores de edad, evidenciando un rango intercuartílico amplio que concentra el 50% central de los datos entre 1490 (Q1) y 1830 (Q3) casos mensuales. La presencia de valores atípicos por debajo de 1000 casos y la mediana ligeramente desplazada hacia el cuartil superior reflejan la asimetría negativa previamente identificada (-0.56), indicando meses recurrentes con baja incidencia que contrastan con la tendencia general de alta actividad. Esta dispersión sustancial justifica la necesidad de considerar la variabilidad mensual en el diseño de estrategias de atención y prevención.

A partir de este histograma con curva de densidad es importante conocer la distribución probabilística que mejor describe el comportamiento de los datos, comparando múltiples distribuciones teóricas frente a la distribución observada. Para seleccionar la distribución óptima, se pueden emplear los criterios de información AIC (Akaike Information Criterion) y BIC (Bayesian Information Criterion), que evalúan la calidad del ajuste penalizando la complejidad del modelo, donde valores más bajos indican mejor equilibrio en bondad de ajuste. Estos criterios son definidos como:

\[ AIC = 2k-2\ln(L) \] \[ BIC = k\ln(n)-2\ln(L) \] Donde \(n\) es el número de observaciones, \(k\) es el número de parámetros estimados en la distribución y \(L\) es la Máxima verosimilitud.

Mediante la función “fitdist” del paquete “fitdistrplus” realiza el ajuste de distribuciones probabilísticas a un conjunto de datos mediante el método de máxima verosimilitud, que encuentra los parámetros de cada distribución que maximizan la probabilidad de observar los datos reales. El proceso compara sistemáticamente distribuciones teóricas con la distribución empírica de los datos, estimando para cada una sus parámetros óptimos y calculando medidas de bondad de ajuste como AIC y BIC. Esta metodología permite identificar objetivamente qué distribución describe mejor el comportamiento de los datos, proporcionando las bases para análisis y pronósticos en el estudio de series temporales.

Dado que las frecuencias mensuales de exámenes médico-legales en este estudio alcanzan valores en el orden de centenas y miles, el uso de distribuciones discretas como la Poisson o la binomial negativa no resulta adecuado. Estas distribuciones están diseñadas para modelar conteos de eventos poco frecuentes, mientras que en este caso los valores son suficientemente grandes para aproximarse al comportamiento de una variable continua. Por ello, resulta más apropiado emplear distribuciones continuas como la normal, gamma, weibull o lognormal, que permiten describir de mejor manera la variabilidad y la posible asimetría en los niveles mensuales de casos observados.

A continuación se evidencia los valores AIC y BIC para analizar y ver el ajuste con distribuciones continuas teniendo presente lo anteriormente descrito y explicado.

##   Distribucion      AIC      BIC
## 4      Weibull 1696.830 1702.405
## 5    Logística 1701.483 1707.058
## 1       Normal 1702.655 1708.230
## 3        Gamma 1715.636 1721.211
## 2   Log-Normal 1725.114 1730.689

El análisis de ajuste distribucional indica y muestra que la distribución Weibull es la que mejor se adapta a los datos mensuales de menores de edad, con el AIC más bajo (1696.83) y BIC más bajo (1702.41). Le siguen muy de cerca las distribuciones Logística (AIC: 1701.48) y Normal (AIC: 1702.66), mientras que las distribuciones Gamma y Log-Normal presentan ajustes significativamente inferiores.

5.2 Análisis serie temporal

Observar primeramente la frecuencia mensual de los casos a través de mapas de calor, complementa visualmente la concentración temporal dado los meses de cada año, aportando así el inicio de lo que posiblemente podría esperarse en un posterior análisis de series de tiempo.

5.2.1 Gráfico serie temporal

Se continúa con la función “ts()” del paquete stats de R, la cual convierte vectores numéricos en objetos de serie temporal mediante la especificación de parámetros de inicio, frecuencia y puntos de tiempo. Esta transformación es fundamental para estructurar los datos mensuales de exámenes médico-legales por presunto delito sexual en un formato temporal reconocible por los algoritmos de análisis de series, permitiendo la identificación de patrones estacionales, tendencias y la aplicación de modelos predictivos ARIMA. La función se implementa estableciendo como punto de inicio enero de 2015 con frecuencia mensual.

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2015 1664 1801 1883 1767 1799 1596 1648 1783 1659 1498 1209  874
## 2016 1493 1563 1673 1605 1617 1579 1638 1665 1595 1453 1348 1187
## 2017 1320 1455 1652 1599 1954 1696 1727 1898 1946 1941 1793 1682
## 2018 1577 1741 1807 2066 2177 1860 1967 2219 2067 2202 1831 1280
## 2019 1896 1847 2060 1993 2141 1790 2023 1998 1992 1951 1585 1337
## 2020 1809 1926 1462  648 1101 1269 1270 1136 1286 1323 1183  957
## 2021 1551 1580 1793 1440 1322 1467 1518 1668 1738 1611 1565 1225
## 2022 1686 1757 2143 1926 1977 1870 1701 1913 1863 1777 1614 1268
## 2023 1680 1571 1829 1629 1833 1711 1638 1827 1762 1674 1456 1155
## 2024 1609 1496 1660 1739 1731 1367 1493 1480 1547 1554 1390 1009

5.2.2 Descomposiciones (Aditiva y Multiplicativa)

Dadas las descomposiciones tanto aditivas como multiplicativas, se observa que el componente de tendencia de las cifras de los exámenes medico-legales por presunto delito sexual a partir del año 2017 comienza a aumentar, pero en 2020 se va inferiorizando. Inmediantame, en 2021 se aprecia de nuevo un crecimiento hasta 2022. El componente de estacionariedad, evidencia que en los meses fines de año es cuando estos casos crecen y decrecen marcadamente. Mientras, que el componente de ruido situa entre 2020 y 2021 un evento puntual presentado posiblmente por la pandemia de COVID-19.

5.2.3 Estacionariedad

Se verifica el supuesto de estacionariedad mediante el test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS), el cual contrasta la hipótesis nula de estacionariedad alrededor de una tendencia. Esta prueba complementaria permite confirmar que las series temporales no presentan componentes de tendencia que comprometan la validez de los modelos de pronóstico (López, 2002).

Hipótesis del test

\[ \begin{cases} H_0: \text{La serie es estacionaria (no tiene raíz unitaria)} \\ H_1: \text{La serie no es estacionaria (tiene raíz unitaria)}\end{cases} \]

Interpretación del test

  • Si el p-valor \(< 0.05\): Se rechaza \(H_0\), es decir, la serie es no estacionaria.
  • Si el p-valor \(> 0.05\): No se rechaza \(H_0\), es decir, la serie es estacionaria.

El análisis de estacionariedad es fundamental para garantizar que la media y varianza de los casos se mantengan constantes en el tiempo, permitiendo la aplicación adecuada de metodologías de series temporales.

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_menores_mensual
## KPSS Level = 0.16808, Truncation lag parameter = 4, p-value = 0.1

Mediante el test de KPSS, la serie es estacionaria dado que su p-valor es mayor que \(0.05\) (No se rechaza \(H_0\)).

Si se quiere complementar la verificación de la prueba anterior, se puede aplicar la función “ndiffs()” del paquete forecast, la cual muestra el número de diferencias necesarias para que la serie se vuelva estacionaria.

## [1] 0

Se evidencia que la serie no necesita diferencia para ser estacionaria dado que ya lo es.

5.2.4 FAC y FACP

5.2.5 Ajuste y selección de modelos (ARIMA - SARIMA)

La selección óptima de modelos de series temporales se llevó a cabo mediante la función auto.arima() del paquete forecast, la cual automatiza la identificación del modelo ARIMA más adecuado a partir de una búsqueda exhaustiva de combinaciones de parámetros (p,d,q). Este procedimiento evalúa la estacionariedad de la serie, determina el orden de diferenciación requerido y selecciona la estructura autorregresiva y de medias móviles que minimiza los criterios de información AIC, AICc y BIC, favoreciendo la parsimonia del modelo. Aunque el criterio AICc está diseñado especialmente para muestras pequeñas, en este estudio se trabaja con un número elevado de observaciones (del orden de miles), por lo cual AICc converge a AIC, permitiendo una selección equivalente. En lugar de elegir únicamente el modelo con menor AICc, se consideraron los tres mejores modelos, con el fin de contrastar su desempeño mediante el análisis de residuos.

##                     MODELO          CONSTANTE     AICc   TIPO
## 14            ARIMA(1,0,0) with non-zero mean 1638.659  ARIMA
## 38            ARIMA(4,0,0) with non-zero mean 1639.272  ARIMA
## 16            ARIMA(1,0,1) with non-zero mean 1640.797  ARIMA
## 66 ARIMA(1,0,0)(1,0,0)[12] with non-zero mean 1606.840 SARIMA
## 72 ARIMA(1,0,0)(2,0,0)[12] with non-zero mean 1608.638 SARIMA
## 82 ARIMA(1,0,1)(1,0,0)[12] with non-zero mean 1608.848 SARIMA
## 
## =========================================
## MODELO 1 : ARIMA(1,0,0) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_menores_mensual 
## ARIMA(1,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1       mean
##       0.6612  1630.8435
## s.e.  0.0697    57.6476
## 
## sigma^2 = 47950:  log likelihood = -816.23
## AIC=1638.45   AICc=1638.66   BIC=1646.81
## 
## =========================================
## MODELO 2 : ARIMA(4,0,0) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_menores_mensual 
## ARIMA(4,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1      ar2      ar3     ar4       mean
##       0.6564  -0.0037  -0.1332  0.2213  1627.3187
## s.e.  0.0901   0.1072   0.1073  0.0897    72.1904
## 
## sigma^2 = 46752:  log likelihood = -813.26
## AIC=1638.53   AICc=1639.27   BIC=1655.25
## 
## =========================================
## MODELO 3 : ARIMA(1,0,1) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_menores_mensual 
## ARIMA(1,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1      ma1       mean
##       0.6652  -0.0072  1630.7721
## s.e.  0.1066   0.1436    57.9356
## 
## sigma^2 = 48359:  log likelihood = -816.22
## AIC=1640.45   AICc=1640.8   BIC=1651.6
## 
## =========================================
## MODELO 4 : ARIMA(1,0,0)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_menores_mensual 
## ARIMA(1,0,0)(1,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1    sar1       mean
##       0.7395  0.5253  1614.7078
## s.e.  0.0614  0.0795   121.5361
## 
## sigma^2 = 35210:  log likelihood = -799.25
## AIC=1606.49   AICc=1606.84   BIC=1617.64
## 
## =========================================
## MODELO 5 : ARIMA(1,0,0)(2,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_menores_mensual 
## ARIMA(1,0,0)(2,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1    sar1    sar2       mean
##       0.7487  0.4952  0.0596  1612.0298
## s.e.  0.0619  0.0926  0.0964   131.1417
## 
## sigma^2 = 35360:  log likelihood = -799.06
## AIC=1608.11   AICc=1608.64   BIC=1622.05
## 
## =========================================
## MODELO 6 : ARIMA(1,0,1)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_menores_mensual 
## ARIMA(1,0,1)(1,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1      ma1    sar1       mean
##       0.7670  -0.0618  0.5267  1613.7083
## s.e.  0.0868   0.1516  0.0794   127.3368
## 
## sigma^2 = 35451:  log likelihood = -799.16
## AIC=1608.32   AICc=1608.85   BIC=1622.26

ARIMA

\(X_t = 1630.84 + 0.6612X_{t-1} + \varepsilon_t\) \(X_t = 1627.32 + 0.6564X_{t-1} - 0.0037X_{t-2} - 0.1332X_{t-3} + 0.2213X_{t-4} + \varepsilon_t\) \(X_t = 1630.77 + 0.6652X_{t-1} - 0.0072\,\varepsilon_{t-1} + \varepsilon_t\)

SARIMA

\(X_t = 1614.71 + 0.7395\,X_{t-1} + 0.5253\,X_{t-12} + \varepsilon_t\) \(X_t = 1612.03 + 0.7487\,X_{t-1} + 0.4952\,X_{t-12} + 0.0596\,X_{t-24} + \varepsilon_t\) \(X_t = 1613.71 + 0.7670\,X_{t-1} - 0.0618\,\varepsilon_{t-1} + 0.5267\,X_{t-12} + \varepsilon_t\)

Análisis de residuos de los modelos

En este contexto, un punto fundamental para evaluar la validez del modelo es verificar que los residuos se comporten como ruido blanco. Un proceso de ruido blanco se caracteriza por ser una secuencia de variables aleatorias independientes, con media cero, varianza finita y ausencia de autocorrelación. Si los residuos de un modelo se aproximan a este comportamiento, se concluye que el modelo ha capturado adecuadamente toda la estructura temporal presente en la serie, dejando únicamente componentes aleatorias no explicables. Por el contrario, residuos no estacionarios, no independientes o autocorrelacionados indicarían que el modelo está mal especificado.

Para esto se complementan las pruebas Ljung–Box y Shapiro–Wilk, estas pruebas permiten comparar los modelos con AICc similares y aportan validez adicional a la elección final, privilegiando aquel cuyos residuos sean más consistentes con las propiedades del ruido blanco. De esta manera, la selección del modelo no se basa únicamente en el AICc, sino también en la adecuación del comportamiento de los residuos, lo cual garantiza una elección más robusta y estadísticamente fundamentada.

Prueba Ljung–Box

Evalúa si los residuos presentan autocorrelación global hasta un cierto rezago \(h\).

Hipótesis

\[ \begin{cases} H_0: \text{Los residuos son independientes, no presentan autocorrelación.} \\ H_1: \text{Los residuos no son independientes, presentan autocorrelación.}\end{cases} \]

Interpretación del test

  • Si el p-valor \(< 0.05\): Se rechaza \(H_0\), es decir, los residuos no son independientes.
  • Si el p-valor \(> 0.05\): No se rechaza \(H_0\), es decir, los residuos son independientes.

Prueba Shapiro–Wilk

Evalúa si los residuos provienen de una distribución normal.

Hipótesis

\[ \begin{cases} H_0: \text{Los residuos provienen de una distribución normal.} \\ H_1: \text{Los residuos no provienen de una distribución normal.}\end{cases} \] Interpretación del test

  • Si el p-valor \(< 0.05\): Se rechaza \(H_0\), es decir, los residuos no provienen de una distribución normal.
  • Si el p-valor \(> 0.05\): No se rechaza \(H_0\), es decir, los residuos provienen de una distribución normal.
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,0) with non-zero mean
## Q* = 71.193, df = 23, p-value = 7.948e-07
## 
## Model df: 1.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,0,0) with non-zero mean
## Q* = 52.791, df = 20, p-value = 8.723e-05
## 
## Model df: 4.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 71.182, df = 22, p-value = 4.304e-07
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,0)(1,0,0)[12] with non-zero mean
## Q* = 19.483, df = 22, p-value = 0.6153
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
## Q* = 21.296, df = 21, p-value = 0.441
## 
## Model df: 3.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1)(1,0,0)[12] with non-zero mean
## Q* = 19.374, df = 21, p-value = 0.5612
## 
## Model df: 3.   Total lags used: 24
##                    MODELO   TIPO     AICc KPSS_p   LjungBox_p    Shapiro_p
## 1            ARIMA(1,0,0)  ARIMA 1638.659    0.1 7.947839e-07 3.054644e-02
## 2            ARIMA(4,0,0)  ARIMA 1639.272    0.1 8.722960e-05 7.244256e-02
## 3            ARIMA(1,0,1)  ARIMA 1640.797    0.1 4.304034e-07 2.815432e-02
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1606.840    0.1 6.153378e-01 6.663029e-05
## 5 ARIMA(1,0,0)(2,0,0)[12] SARIMA 1608.638    0.1 4.410292e-01 3.721444e-05
## 6 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1608.848    0.1 5.611670e-01 2.470177e-05

Dado los test y los valores AICc el mejor modelo de los propuestos es ARIMA(1,0,0)(1,0,0)[12]

\(X_t = 1614.71 + 0.7395\,X_{t-1} + 0.5253\,X_{t-12} + \varepsilon_t\)

Graficos de residuos del mejor modelo de los seleccionados

##                    MODELO   TIPO    AICc KPSS_p LjungBox_p    Shapiro_p
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1606.84    0.1  0.6153378 6.663029e-05

5.2.6 Previsión

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2015 1664 1801 1883 1767 1799 1596 1648 1783 1659 1498 1209  874
## 2016 1493 1563 1673 1605 1617 1579 1638 1665 1595 1453 1348 1187
## 2017 1320 1455 1652 1599 1954 1696 1727 1898 1946 1941 1793 1682
## 2018 1577 1741 1807 2066 2177 1860 1967 2219 2067 2202 1831 1280
## 2019 1896 1847 2060 1993 2141 1790 2023 1998 1992 1951 1585 1337
## 2020 1809 1926 1462  648 1101 1269 1270 1136 1286 1323 1183  957
## 2021 1551 1580 1793 1440 1322 1467 1518 1668 1738 1611 1565 1225
## 2022 1686 1757 2143 1926 1977 1870 1701 1913 1863 1777 1614 1268
## 2023 1680 1571 1829 1629 1833 1711 1638 1827 1762 1674 1456 1155
## 2024 1609 1496 1660 1739 1731 1367 1493 1480 1547 1554 1390 1009
## 2025 1438 1479 1603 1446 1581 1440 1487 1597 1581 1527 1321 1027

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2015 1664 1801 1883 1767 1799 1596 1648 1783 1659 1498 1209  874
## 2016 1493 1563 1673 1605 1617 1579 1638 1665 1595 1453 1348 1187
## 2017 1320 1455 1652 1599 1954 1696 1727 1898 1946 1941 1793 1682
## 2018 1577 1741 1807 2066 2177 1860 1967 2219 2067 2202 1831 1280
## 2019 1896 1847 2060 1993 2141 1790 2023 1998 1992 1951 1585 1337
## 2020 1809 1926 1462  648 1101 1269 1270 1136 1286 1323 1183  957
## 2021 1551 1580 1793 1440 1322 1467 1518 1668 1738 1611 1565 1225
## 2022 1686 1757 2143 1926 1977 1870 1701 1913 1863 1777 1614 1268
## 2023 1680 1571 1829 1629 1833 1711 1638 1827 1762 1674 1456 1155
## 2024 1609 1496 1660 1739 1731 1367 1493 1480 1547 1554 1390 1009
## 2025 1527 1620 1769 1664 1738 1626 1643 1761 1700 1566 1282  924
## 
## Parámetros del modelo Holt-Winters:
## Holt-Winters exponential smoothing with trend and additive seasonal component.
## 
## Call:
## HoltWinters(x = ts_menores_mensual)
## 
## Smoothing parameters:
##  alpha: 0.8073495
##  beta : 0
##  gamma: 0.2602097
## 
## Coefficients:
##            [,1]
## a   1610.377650
## b     -7.115822
## s1   -76.100082
## s2    23.545103
## s3   179.637284
## s4    82.195354
## s5   162.854894
## s6    57.855022
## s7    82.173081
## s8   207.912645
## s9   154.148636
## s10   26.882177
## s11 -250.057853
## s12 -601.201574

6 Serie 2 - Grupo etario Mayores de edad

6.1 Análisis descriptivo

Estadísticos Descriptivos - Mayores de Edad
Valor
n 120.00
mean 304.17
sd 68.60
var 4705.72
moda 256.00
min 120.00
max 450.00
rango 330.00
median 294.00
skew 0.13
kurtosis -0.68

Gráficos

El diagrama de caja para mayores de edad revela una distribución con menor variabilidad relativa en comparación con el grupo de menores, mostrando un rango intercuartílico compacto que concentra el 50% central de los datos entre 255.5 (Q1) y 365 (Q3) casos mensuales. La posición casi central de la mediana y la cercana simetría en la dispersión de los bigotes confirman el coeficiente de asimetría cercano a cero (0.13) previamente calculado. La presencia de valores hacia el extremo superior, alcanzando hasta 450 casos mensuales, sugiere la ocurrencia periódica de meses con incidencia excepcionalmente alta dentro de una tendencia general más estable y predecible.

Ahora bien, partiendo de este histograma con curva de densidad se determina la distribución probabilística que mejor describe el comportamiento de los casos mensuales en mayores de edad mediante la función fitdist, evaluando distribuciones continuas (Normal, Log-Normal, Gamma, Weibull, Logística). Este análisis permitirá identificar el modelo teórico que más se ajusta a los datos observados, fundamentando inferencias estadísticas sobre exámenes médico-legales por presunto delito sexual en la población adulta.

##   Distribucion      AIC      BIC
## 1       Normal 1358.325 1363.900
## 3        Gamma 1358.972 1364.547
## 4      Weibull 1360.377 1365.952
## 2   Log-Normal 1362.484 1368.059
## 5    Logística 1365.243 1370.818

Se revela que la distribución Normal presenta el mejor ajuste entre las distribuciones continuas, seguida muy de cerca por la distribución Gamma. La casi simetría observada en los datos (0.13) explica y complementa el buen desempeño de la distribución Normal como aproximación continua, pero recordando que la Binomial Negativa representa el modelo teóricamente más coherente con la naturaleza del fenómeno estudiado.

6.2 Análisis serie temporal

6.2.1 Gráfico serie temporal

##      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 250 281 290 296 269 224 245 270 230 239 206 174
## 2016 259 276 247 250 264 237 256 277 237 256 213 211
## 2017 222 247 238 239 275 261 268 261 253 253 306 312
## 2018 271 256 260 280 299 256 272 275 263 323 254 262
## 2019 293 281 336 286 281 307 293 327 316 295 265 265
## 2020 343 314 210 120 163 206 215 220 217 232 244 200
## 2021 371 322 322 330 368 312 376 331 376 364 337 318
## 2022 415 406 450 382 413 379 337 418 376 380 350 304
## 2023 427 435 440 390 390 377 392 342 403 356 334 298
## 2024 436 408 381 380 391 386 372 416 384 355 353 325

6.2.2 Descomposiciones (Aditiva y Multiplicativa)

El componente de tendencia presenta un aumento de las cifras de los exámenes medico-legales por presunto delito sexual momentos antes de iniciar el año 2021. Sin embargo, de 2022 hasta 2024 se evidencia una tendencia semejantemente plana. El componente de estacionariedad, evidencia que en los meses fines de año es cuando estos casos crecen y decrecen drásticamente. Por último, el componente de ruido situa dos eventos puntuales, uno entre 2017-2018 y otro entre 2020-2021.

6.2.3 Estacionariedad

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_mayores_mensual
## KPSS Level = 1.6862, Truncation lag parameter = 4, p-value = 0.01

Mediante el test de KPSS, la serie es no estacionaria dado que su p-valor es menor que \(0.05\) (Se rechaza \(H_0\)).

Aplicamos el número de diferencias necesarias para que la serie se vuelva estacionaria.

## [1] 1

Dado que se necesita aplicar una diferencia, la función “diff()” aplica diferenciación a una serie temporal calculando las diferencias entre observaciones consecutivas \((\nabla X_t = X_t - X_{t-1})\), eliminando así tendencias y componentes no estacionarios. Esta transformación es fundamental cuando el test indica no estacionariedad, ya que convierte la serie en estacionaria al remover dependencias temporales y estabilizar la media. Esto es con el fin de que las series cumplan con los supuestos de estacionariedad requeridos para la aplicación de metodologías en modelamiento de series temporales.

Por lo tanto, al ser aplicada una diferencia, el p-valor de la prueba KPSS es:

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_mayores_diff1
## KPSS Level = 0.04679, Truncation lag parameter = 4, p-value = 0.1

Mediante el test de KPSS, la serie ya transformada es estacionaria dado que su p-valor es mayor que \(0.05\) (No se rechaza \(H_0\)).

6.2.4 FAC y FACP

6.2.5 Ajuste y selección de modelos (ARIMA - SARIMA)

##                     MODELO          CONSTANTE     AICc   TIPO
## 35            ARIMA(3,0,2)     with zero mean 1208.573  ARIMA
## 36            ARIMA(3,0,2) with non-zero mean 1210.725  ARIMA
## 15            ARIMA(1,0,1)     with zero mean 1212.831  ARIMA
## 43 ARIMA(0,0,2)(2,0,0)[12]     with zero mean 1205.453 SARIMA
## 87 ARIMA(1,0,1)(2,0,0)[12]     with zero mean 1205.568 SARIMA
## 27 ARIMA(0,0,1)(2,0,0)[12]     with zero mean 1205.914 SARIMA
## 
## =========================================
## MODELO 1 : ARIMA(3,0,2) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_mayores_diff1 
## ARIMA(3,0,2) with zero mean 
## 
## Coefficients:
##          ar1      ar2      ar3      ma1     ma2
##       0.7090  -0.5791  -0.2873  -1.1859  0.8997
## s.e.  0.1372   0.1009   0.0930   0.1055  0.1297
## 
## sigma^2 = 1395:  log likelihood = -597.91
## AIC=1207.82   AICc=1208.57   BIC=1224.5
## 
## =========================================
## MODELO 2 : ARIMA(3,0,2) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_mayores_diff1 
## ARIMA(3,0,2) with non-zero mean 
## 
## Coefficients:
##          ar1      ar2      ar3      ma1     ma2    mean
##       0.7077  -0.5783  -0.2882  -1.1853  0.8989  0.6769
## s.e.  0.1374   0.1009   0.0930   0.1057  0.1303  2.0677
## 
## sigma^2 = 1406:  log likelihood = -597.86
## AIC=1209.72   AICc=1210.73   BIC=1229.17
## 
## =========================================
## MODELO 3 : ARIMA(1,0,1) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_mayores_diff1 
## ARIMA(1,0,1) with zero mean 
## 
## Coefficients:
##          ar1      ma1
##       0.2921  -0.7375
## s.e.  0.1646   0.1202
## 
## sigma^2 = 1503:  log likelihood = -603.31
## AIC=1212.62   AICc=1212.83   BIC=1220.96
## 
## =========================================
## MODELO 4 : ARIMA(0,0,2)(2,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_mayores_diff1 
## ARIMA(0,0,2)(2,0,0)[12] with zero mean 
## 
## Coefficients:
##           ma1      ma2    sar1    sar2
##       -0.4004  -0.1428  0.2164  0.2052
## s.e.   0.0911   0.0880  0.0905  0.0962
## 
## sigma^2 = 1365:  log likelihood = -597.46
## AIC=1204.92   AICc=1205.45   BIC=1218.82
## 
## =========================================
## MODELO 5 : ARIMA(1,0,1)(2,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_mayores_diff1 
## ARIMA(1,0,1)(2,0,0)[12] with zero mean 
## 
## Coefficients:
##          ar1      ma1    sar1    sar2
##       0.2811  -0.6846  0.2171  0.1996
## s.e.  0.1807   0.1380  0.0907  0.0953
## 
## sigma^2 = 1367:  log likelihood = -597.52
## AIC=1205.04   AICc=1205.57   BIC=1218.93
## 
## =========================================
## MODELO 6 : ARIMA(0,0,1)(2,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_mayores_diff1 
## ARIMA(0,0,1)(2,0,0)[12] with zero mean 
## 
## Coefficients:
##           ma1    sar1    sar2
##       -0.4749  0.2446  0.1727
## s.e.   0.0949  0.0906  0.0953
## 
## sigma^2 = 1385:  log likelihood = -598.78
## AIC=1205.56   AICc=1205.91   BIC=1216.68

ARIMA

\(X_t = 0.7090X_{t-1} - 0.5791X_{t-2} - 0.2873X_{t-3} - 1.1859\varepsilon_{t-1} + 0.8997\varepsilon_{t-2} + \varepsilon_t\) \(X_t = 0.6769 + 0.7077X_{t-1} - 0.5783X_{t-2} - 0.2882X_{t-3} - 1.1853\varepsilon_{t-1} + 0.8989\varepsilon_{t-2} + \varepsilon_t\) \(X_t = 0.2921X_{t-1} - 0.7375\varepsilon_{t-1} + \varepsilon_t\)

SARIMA

\(X_t = -0.4004\,\varepsilon_{t-1} - 0.1428\,\varepsilon_{t-2} + 0.2164\,X_{t-12} + 0.2052\,X_{t-24} + \varepsilon_t\) \(X_t = 0.2811\,X_{t-1} - 0.6846\,\varepsilon_{t-1} + 0.2171\,X_{t-12} + 0.1996\,X_{t-24} + \varepsilon_t\) \(X_t = -0.4749\,\varepsilon_{t-1} + 0.2446\,X_{t-12} + 0.1727\,X_{t-24} + \varepsilon_t\)

Análisis de residuos de los modelos

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,2) with zero mean
## Q* = 32.196, df = 19, p-value = 0.0297
## 
## Model df: 5.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(3,0,2) with non-zero mean
## Q* = 32.188, df = 19, p-value = 0.02976
## 
## Model df: 5.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1) with zero mean
## Q* = 41.205, df = 22, p-value = 0.00779
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,2)(2,0,0)[12] with zero mean
## Q* = 32.837, df = 20, p-value = 0.03516
## 
## Model df: 4.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1)(2,0,0)[12] with zero mean
## Q* = 33.466, df = 20, p-value = 0.02997
## 
## Model df: 4.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,1)(2,0,0)[12] with zero mean
## Q* = 42.107, df = 21, p-value = 0.004079
## 
## Model df: 3.   Total lags used: 24
##                    MODELO   TIPO     AICc KPSS_p  LjungBox_p   Shapiro_p
## 1            ARIMA(3,0,2)  ARIMA 1208.573    0.1 0.029698669 0.039723577
## 2            ARIMA(3,0,2)  ARIMA 1210.725    0.1 0.029763452 0.040024223
## 3            ARIMA(1,0,1)  ARIMA 1212.831    0.1 0.007790307 0.001092186
## 4 ARIMA(0,0,2)(2,0,0)[12] SARIMA 1205.453    0.1 0.035158971 0.004251972
## 5 ARIMA(1,0,1)(2,0,0)[12] SARIMA 1205.568    0.1 0.029970804 0.003206295
## 6 ARIMA(0,0,1)(2,0,0)[12] SARIMA 1205.914    0.1 0.004079127 0.005901964

Mejor modelo seleccionado ARIMA(0,0,2)(2,0,0)[12] bajo el criterio AICc y los test

\(X_t = -0.4004\,\varepsilon_{t-1} - 0.1428\,\varepsilon_{t-2} + 0.2164\,X_{t-12} + 0.2052\,X_{t-24} + \varepsilon_t\)

Graficos de residuos del mejor modelo de los seleccionados

##                    MODELO   TIPO     AICc KPSS_p LjungBox_p   Shapiro_p
## 4 ARIMA(0,0,2)(2,0,0)[12] SARIMA 1205.453    0.1 0.03515897 0.004251972

6.2.6 Previsión

##      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 250 281 290 296 269 224 245 270 230 239 206 174
## 2016 259 276 247 250 264 237 256 277 237 256 213 211
## 2017 222 247 238 239 275 261 268 261 253 253 306 312
## 2018 271 256 260 280 299 256 272 275 263 323 254 262
## 2019 293 281 336 286 281 307 293 327 316 295 265 265
## 2020 343 314 210 120 163 206 215 220 217 232 244 200
## 2021 371 322 322 330 368 312 376 331 376 364 337 318
## 2022 415 406 450 382 413 379 337 418 376 380 350 304
## 2023 427 435 440 390 390 377 392 342 403 356 334 298
## 2024 436 408 381 380 391 386 372 416 384 355 353 325
## 2025 403 393 383 358 376 360 369 374 367 369 348 328

7 Posible problemática

Los casos en menores de edad son más altos que en mayores de edad, y es una brecha que se mantiene de manera constante a lo largo de los años, evidenciando que la población menor de 18 años es la más vulnerable frente a este tipo de delito.

Además, ambos grupos presentan una disminución marcada en 2020, año asociado a las restricciones de movilidad y cambios sociales por la pandemia de COVID-19, lo que pudo afectar la denuncia, el acceso a servicios de salud, o la visibilidad de los casos (Betancourt, 2022).

Sin embargo, tras ese descenso temporal, los casos vuelven a incrementarse, lo que sugiere que la problemática no desapareció: solo se ocultó o se vio afectada por el contexto sanitario.

8 Posible solución

Una posible solución consiste en fortalecer las rutas de prevención, atención y denuncia específicamente dirigidas a menores de edad, ya que son el grupo con mayor número de casos según los datos. Esto implica:

9 Análisis por sexo biológico (Mujer, Hombre)

## # A tibble: 36 × 4
##    Año   Mes        Hombres Mujeres
##    <chr> <fct>        <int>   <int>
##  1 2015  Enero          281    1633
##  2 2015  Febrero        297    1785
##  3 2015  Marzo          318    1855
##  4 2015  Abril          299    1764
##  5 2015  Mayo           283    1785
##  6 2015  Junio          282    1538
##  7 2015  Julio          268    1625
##  8 2015  Agosto         322    1731
##  9 2015  Septiembre     300    1589
## 10 2015  Octubre        288    1449
## # ℹ 26 more rows

9.1 Correlación

## Coeficiente de correlación (r): 0.7538

10 Serie 3 - Sexo biológico: Mujer

10.1 Análisis descriptivo

Estadísticos Descriptivos - Mujeres
Valor
n 120.00
mean 1682.87
sd 281.56
var 79276.52
moda 1785.00
min 650.00
max 2313.00
rango 1663.00
median 1726.50
skew -0.76
kurtosis 0.81

Gráficos

##   Distribucion      AIC      BIC
## 4      Weibull 1687.245 1692.820
## 5    Logística 1695.011 1700.586
## 1       Normal 1697.225 1702.800
## 3        Gamma 1712.679 1718.254
## 2   Log-Normal 1723.324 1728.899

10.2 Análisis serie temporal

10.2.1 Gráfico serie temporal

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2015 1633 1785 1855 1764 1785 1538 1625 1731 1589 1449 1206  916
## 2016 1485 1583 1639 1593 1588 1527 1608 1653 1564 1479 1350 1188
## 2017 1337 1453 1617 1580 1881 1700 1722 1833 1897 1851 1831 1717
## 2018 1590 1710 1755 2030 2093 1811 1930 2131 2027 2130 1809 1293
## 2019 1902 1826 2084 1951 2048 1804 1991 1993 2001 1949 1587 1387
## 2020 1857 1896 1416  650 1067 1278 1259 1173 1282 1348 1230 1014
## 2021 1692 1652 1847 1544 1491 1529 1660 1748 1876 1741 1662 1351
## 2022 1840 1906 2313 2048 2125 1971 1795 2082 1988 1870 1755 1353
## 2023 1855 1785 1994 1791 1953 1838 1766 1897 1929 1771 1571 1269
## 2024 1781 1650 1780 1878 1855 1550 1631 1637 1706 1657 1542 1165

10.2.2 Descomposiciones (Aditiva y Multiplicativa)

10.2.3 Estacionariedad

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_mujeres_mensual
## KPSS Level = 0.15622, Truncation lag parameter = 4, p-value = 0.1
## [1] 0

10.2.4 FAC y FACP

10.2.5 Ajuste y selección de modelos (ARIMA - SARIMA)

##                     MODELO          CONSTANTE     AICc   TIPO
## 38            ARIMA(4,0,0) with non-zero mean 1630.879  ARIMA
## 14            ARIMA(1,0,0) with non-zero mean 1631.788  ARIMA
## 42            ARIMA(5,0,0) with non-zero mean 1632.706  ARIMA
## 66 ARIMA(1,0,0)(1,0,0)[12] with non-zero mean 1601.164 SARIMA
## 72 ARIMA(1,0,0)(2,0,0)[12] with non-zero mean 1601.848 SARIMA
## 82 ARIMA(1,0,1)(1,0,0)[12] with non-zero mean 1603.276 SARIMA
## 
## =========================================
## MODELO 1 : ARIMA(4,0,0) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_mujeres_mensual 
## ARIMA(4,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3     ar4       mean
##       0.6519  0.0140  -0.1652  0.2457  1670.9785
## s.e.  0.0894  0.1061   0.1061  0.0887    71.0589
## 
## sigma^2 = 43577:  log likelihood = -809.07
## AIC=1630.14   AICc=1630.88   BIC=1646.86
## 
## =========================================
## MODELO 2 : ARIMA(1,0,0) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_mujeres_mensual 
## ARIMA(1,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1       mean
##       0.6625  1673.8725
## s.e.  0.0689    56.2328
## 
## sigma^2 = 45280:  log likelihood = -812.79
## AIC=1631.58   AICc=1631.79   BIC=1639.94
## 
## =========================================
## MODELO 3 : ARIMA(5,0,0) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_mujeres_mensual 
## ARIMA(5,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3     ar4     ar5       mean
##       0.6366  0.0241  -0.1664  0.2068  0.0599  1670.3868
## s.e.  0.0922  0.1071   0.1060  0.1066  0.0912    74.7112
## 
## sigma^2 = 43797:  log likelihood = -808.85
## AIC=1631.71   AICc=1632.71   BIC=1651.22
## 
## =========================================
## MODELO 4 : ARIMA(1,0,0)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_mujeres_mensual 
## ARIMA(1,0,0)(1,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1    sar1       mean
##       0.7508  0.5178  1660.6306
## s.e.  0.0600  0.0799   122.3145
## 
## sigma^2 = 33608:  log likelihood = -796.41
## AIC=1600.82   AICc=1601.16   BIC=1611.97
## 
## =========================================
## MODELO 5 : ARIMA(1,0,0)(2,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_mujeres_mensual 
## ARIMA(1,0,0)(2,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1    sar1    sar2      mean
##       0.7693  0.4612  0.1174  1657.849
## s.e.  0.0591  0.0904  0.0952   143.281
## 
## sigma^2 = 33342:  log likelihood = -795.66
## AIC=1601.32   AICc=1601.85   BIC=1615.26
## 
## =========================================
## MODELO 6 : ARIMA(1,0,1)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_mujeres_mensual 
## ARIMA(1,0,1)(1,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1      ma1    sar1       mean
##       0.7661  -0.0365  0.5174  1660.4309
## s.e.  0.0827   0.1433  0.0799   125.2931
## 
## sigma^2 = 33878:  log likelihood = -796.38
## AIC=1602.75   AICc=1603.28   BIC=1616.69

ARIMA

\(X_t = 1670.9785 + 0.6519\,X_{t-1} + 0.0140\,X_{t-2} - 0.1652\,X_{t-3} + 0.2457\,X_{t-4} + \varepsilon_t\) \(X_t = 1673.8725 + 0.6625\,X_{t-1} + \varepsilon_t\) \(X_t = 1670.3868 + 0.6366\,X_{t-1} + 0.0241\,X_{t-2} - 0.1664\,X_{t-3} + 0.2068\,X_{t-4} + 0.0599\,X_{t-5} + \varepsilon_t\)

SARIMA

\(X_t = 1660.6306 +0.7508\,X_{t-1} + 0.5178\,X_{t-12} + \varepsilon_t\) \(X_t = 1657.849+ 0.7693\,X_{t-1}+ 0.4612\,X_{t-12}+ 0.1174\,X_{t-24}+ \varepsilon_t\) \(X_t = 1660.4309+ 0.7661\,X_{t-1}- 0.0365\,\varepsilon_{t-1}+ 0.5174\,X_{t-12}+ \varepsilon_t\)

Análisis de residuos de los modelos

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(4,0,0) with non-zero mean
## Q* = 57.849, df = 20, p-value = 1.524e-05
## 
## Model df: 4.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,0) with non-zero mean
## Q* = 84.283, df = 23, p-value = 6.345e-09
## 
## Model df: 1.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(5,0,0) with non-zero mean
## Q* = 57.278, df = 19, p-value = 1.034e-05
## 
## Model df: 5.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,0)(1,0,0)[12] with non-zero mean
## Q* = 29.917, df = 22, p-value = 0.1205
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,0)(2,0,0)[12] with non-zero mean
## Q* = 32.966, df = 21, p-value = 0.0466
## 
## Model df: 3.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1)(1,0,0)[12] with non-zero mean
## Q* = 29.427, df = 21, p-value = 0.1041
## 
## Model df: 3.   Total lags used: 24
##                    MODELO   TIPO     AICc KPSS_p   LjungBox_p    Shapiro_p
## 1            ARIMA(4,0,0)  ARIMA 1630.879    0.1 1.524423e-05 2.330197e-02
## 2            ARIMA(1,0,0)  ARIMA 1631.788    0.1 6.344872e-09 1.842262e-02
## 3            ARIMA(5,0,0)  ARIMA 1632.706    0.1 1.034370e-05 1.476182e-02
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1601.164    0.1 1.204955e-01 7.530904e-05
## 5 ARIMA(1,0,0)(2,0,0)[12] SARIMA 1601.848    0.1 4.659564e-02 2.572275e-05
## 6 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1603.276    0.1 1.041108e-01 4.192769e-05

Mejor modelo seleccionado bajo los criterios presentados ARIMA(1,0,0)(1,0,0)[12]

\(X_t = 1660.6306 +0.7508\,X_{t-1} + 0.5178\,X_{t-12} + \varepsilon_t\)

Graficos de residuos del mejor modelo de los seleccionados

##                    MODELO   TIPO     AICc KPSS_p LjungBox_p    Shapiro_p
## 4 ARIMA(1,0,0)(1,0,0)[12] SARIMA 1601.164    0.1  0.1204955 7.530904e-05

10.2.6 Previsión

##       Jan  Feb  Mar  Apr  May  Jun  Jul  Aug  Sep  Oct  Nov  Dec
## 2015 1633 1785 1855 1764 1785 1538 1625 1731 1589 1449 1206  916
## 2016 1485 1583 1639 1593 1588 1527 1608 1653 1564 1479 1350 1188
## 2017 1337 1453 1617 1580 1881 1700 1722 1833 1897 1851 1831 1717
## 2018 1590 1710 1755 2030 2093 1811 1930 2131 2027 2130 1809 1293
## 2019 1902 1826 2084 1951 2048 1804 1991 1993 2001 1949 1587 1387
## 2020 1857 1896 1416  650 1067 1278 1259 1173 1282 1348 1230 1014
## 2021 1692 1652 1847 1544 1491 1529 1660 1748 1876 1741 1662 1351
## 2022 1840 1906 2313 2048 2125 1971 1795 2082 1988 1870 1755 1353
## 2023 1855 1785 1994 1791 1953 1838 1766 1897 1929 1771 1571 1269
## 2024 1781 1650 1780 1878 1855 1550 1631 1637 1706 1657 1542 1165
## 2025 1686 1777 1888 1791 1842 1721 1757 1865 1790 1649 1414 1097
## 
## Parámetros del modelo Holt-Winters:
## Holt-Winters exponential smoothing with trend and additive seasonal component.
## 
## Call:
## HoltWinters(x = ts_mujeres_mensual)
## 
## Smoothing parameters:
##  alpha: 0.8777221
##  beta : 0
##  gamma: 0.3681356
## 
## Coefficients:
##            [,1]
## a   1725.109392
## b     -5.995484
## s1   -33.566023
## s2    64.087928
## s3   180.513656
## s4    89.549107
## s5   147.365734
## s6    31.807931
## s7    74.333267
## s8   187.415119
## s9   118.417779
## s10  -16.183621
## s11 -245.467270
## s12 -556.063713

11 Serie 4 - Sexo biológico: Hombre

11.1 Análisis descriptivo

Estadísticos Descriptivos - Hombres
Valor
n 120.00
mean 261.73
sd 48.20
var 2323.64
moda 268.00
min 118.00
max 395.00
rango 277.00
median 261.50
skew -0.06
kurtosis 0.63

Gráficos

##   Distribucion      AIC      BIC
## 5    Logística 1270.830 1276.405
## 1       Normal 1273.648 1279.223
## 4      Weibull 1278.505 1284.080
## 3        Gamma 1279.537 1285.112
## 2   Log-Normal 1285.578 1291.153

11.2 Análisis serie temporal

11.2.1 Gráfico serie temporal

##      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 281 297 318 299 283 282 268 322 300 288 209 132
## 2016 267 256 281 262 293 289 286 289 268 230 211 210
## 2017 205 249 273 258 348 257 273 326 302 343 268 277
## 2018 258 287 312 316 383 305 309 363 303 395 276 249
## 2019 287 302 312 328 374 293 325 332 307 297 263 215
## 2020 295 344 256 118 197 197 226 183 221 207 197 143
## 2021 230 250 269 226 199 250 235 251 238 234 240 192
## 2022 261 257 280 260 265 278 243 249 251 287 209 219
## 2023 252 221 275 228 270 250 264 272 236 259 219 184
## 2024 264 254 261 241 267 203 234 259 225 252 201 169

11.2.2 Descomposiciones (Aditiva y Multiplicativa)

11.2.3 Estacionariedad

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_hombres_mensual
## KPSS Level = 0.71438, Truncation lag parameter = 4, p-value = 0.01224
## [1] 1
## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_hombres_diff1
## KPSS Level = 0.052259, Truncation lag parameter = 4, p-value = 0.1

11.2.4 FAC y FACP

11.2.5 Ajuste y selección de modelos (ARIMA - SARIMA)

##                     MODELO          CONSTANTE     AICc   TIPO
## 15            ARIMA(1,0,1)     with zero mean 1218.676  ARIMA
## 5             ARIMA(0,0,2)     with zero mean 1219.092  ARIMA
## 16            ARIMA(1,0,1) with non-zero mean 1220.405  ARIMA
## 81 ARIMA(1,0,1)(1,0,0)[12]     with zero mean 1197.613 SARIMA
## 37 ARIMA(0,0,2)(1,0,0)[12]     with zero mean 1197.669 SARIMA
## 21 ARIMA(0,0,1)(1,0,0)[12]     with zero mean 1198.086 SARIMA
## 
## =========================================
## MODELO 1 : ARIMA(1,0,1) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_hombres_diff1 
## ARIMA(1,0,1) with zero mean 
## 
## Coefficients:
##          ar1      ma1
##       0.2747  -0.8121
## s.e.  0.1317   0.0836
## 
## sigma^2 = 1576:  log likelihood = -606.23
## AIC=1218.47   AICc=1218.68   BIC=1226.8
## 
## =========================================
## MODELO 2 : ARIMA(0,0,2) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_hombres_diff1 
## ARIMA(0,0,2) with zero mean 
## 
## Coefficients:
##           ma1      ma2
##       -0.5499  -0.1702
## s.e.   0.0881   0.0876
## 
## sigma^2 = 1581:  log likelihood = -606.44
## AIC=1218.88   AICc=1219.09   BIC=1227.22
## 
## =========================================
## MODELO 3 : ARIMA(1,0,1) 
## TIPO: ARIMA 
## =========================================
## 
## Series: ts_hombres_diff1 
## ARIMA(1,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1      ma1     mean
##       0.2767  -0.8170  -0.6115
## s.e.  0.1320   0.0836   0.9495
## 
## sigma^2 = 1583:  log likelihood = -606.03
## AIC=1220.05   AICc=1220.41   BIC=1231.17
## 
## =========================================
## MODELO 4 : ARIMA(1,0,1)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_hombres_diff1 
## ARIMA(1,0,1)(1,0,0)[12] with zero mean 
## 
## Coefficients:
##          ar1      ma1    sar1
##       0.2357  -0.7487  0.4520
## s.e.  0.1462   0.1021  0.0864
## 
## sigma^2 = 1280:  log likelihood = -594.63
## AIC=1197.26   AICc=1197.61   BIC=1208.38
## 
## =========================================
## MODELO 5 : ARIMA(0,0,2)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_hombres_diff1 
## ARIMA(0,0,2)(1,0,0)[12] with zero mean 
## 
## Coefficients:
##           ma1      ma2    sar1
##       -0.5152  -0.1417  0.4548
## s.e.   0.0897   0.0891  0.0860
## 
## sigma^2 = 1280:  log likelihood = -594.66
## AIC=1197.32   AICc=1197.67   BIC=1208.43
## 
## =========================================
## MODELO 6 : ARIMA(0,0,1)(1,0,0)[12] 
## TIPO: SARIMA 
## =========================================
## 
## Series: ts_hombres_diff1 
## ARIMA(0,0,1)(1,0,0)[12] with zero mean 
## 
## Coefficients:
##           ma1    sar1
##       -0.5995  0.4644
## s.e.   0.0870  0.0854
## 
## sigma^2 = 1295:  log likelihood = -595.94
## AIC=1197.88   AICc=1198.09   BIC=1206.21

ARIMA

\(X_t = 0.2747\,X_{t-1} - 0.8121\,\varepsilon_{t-1} + \varepsilon_t\) \(X_t = -0.5499\,\varepsilon_{t-1} - 0.1702\,\varepsilon_{t-2} + \varepsilon_t\) \(X_t = - 0.6115 + 0.2767\,X_{t-1} - 0.8170\,\varepsilon_{t-1} + \varepsilon_t\)

SARIMA

\(X_t = 0.2357\,X_{t-1} - 0.7487\,\varepsilon_{t-1} + 0.4520\,X_{t-12} + \varepsilon_t\) \(X_t = -0.5152\,\varepsilon_{t-1} - 0.1417\,\varepsilon_{t-2} + 0.4548\,X_{t-12} + \varepsilon_t\) \(X_t = -0.5995\,\varepsilon_{t-1} + 0.4644\,X_{t-12} + \varepsilon_t\)

Análisis de residuos de los modelos

## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1) with zero mean
## Q* = 43.559, df = 22, p-value = 0.004025
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,2) with zero mean
## Q* = 44.626, df = 22, p-value = 0.002959
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1) with non-zero mean
## Q* = 43.353, df = 22, p-value = 0.004269
## 
## Model df: 2.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(1,0,1)(1,0,0)[12] with zero mean
## Q* = 15.662, df = 21, p-value = 0.7884
## 
## Model df: 3.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,2)(1,0,0)[12] with zero mean
## Q* = 15.708, df = 21, p-value = 0.7858
## 
## Model df: 3.   Total lags used: 24
## 
## 
##  Ljung-Box test
## 
## data:  Residuals from ARIMA(0,0,1)(1,0,0)[12] with zero mean
## Q* = 14.671, df = 22, p-value = 0.876
## 
## Model df: 2.   Total lags used: 24
##                    MODELO   TIPO     AICc KPSS_p  LjungBox_p    Shapiro_p
## 1            ARIMA(1,0,1)  ARIMA 1218.676    0.1 0.004025067 1.198546e-02
## 2            ARIMA(0,0,2)  ARIMA 1219.092    0.1 0.002959052 1.291841e-02
## 3            ARIMA(1,0,1)  ARIMA 1220.405    0.1 0.004269180 1.148218e-02
## 4 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1197.613    0.1 0.788356255 8.036422e-05
## 5 ARIMA(0,0,2)(1,0,0)[12] SARIMA 1197.669    0.1 0.785815011 1.343684e-04
## 6 ARIMA(0,0,1)(1,0,0)[12] SARIMA 1198.086    0.1 0.875964189 2.095781e-05

Mejor modelo seleccionado de los propuestos teniendo presente los test y los valores AICc ARIMA(1,0,1)(1,0,0)[12]

\(X_t = 0.2357\,X_{t-1} - 0.7487\,\varepsilon_{t-1} + 0.4520\,X_{t-12} + \varepsilon_t\)

Graficos de residuos del mejor modelo de los seleccionados

##                    MODELO   TIPO     AICc KPSS_p LjungBox_p    Shapiro_p
## 4 ARIMA(1,0,1)(1,0,0)[12] SARIMA 1197.613    0.1  0.7883563 8.036422e-05

11.2.6 Previsión

##      Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 2015 281 297 318 299 283 282 268 322 300 288 209 132
## 2016 267 256 281 262 293 289 286 289 268 230 211 210
## 2017 205 249 273 258 348 257 273 326 302 343 268 277
## 2018 258 287 312 316 383 305 309 363 303 395 276 249
## 2019 287 302 312 328 374 293 325 332 307 297 263 215
## 2020 295 344 256 118 197 197 226 183 221 207 197 143
## 2021 230 250 269 226 199 250 235 251 238 234 240 192
## 2022 261 257 280 260 265 278 243 249 251 287 209 219
## 2023 252 221 275 228 270 250 264 272 236 259 219 184
## 2024 264 254 261 241 267 203 234 259 225 252 201 169
## 2025 229 237 250 222 258 230 235 248 234 244 203 170

12 Posible problemática

A lo largo de toda la serie, los casos en mujeres son significativamente superiores, superando de manera estable en más de cinco a siete veces las cifras registradas en hombres. Esta brecha se mantiene de forma persistente durante toda la década, lo que refleja una mayor vulnerabilidad estructural de las mujeres frente a este delito.

En ambos grupos se observa nuevamente una disminución abrupta en 2020, asociada al periodo de pandemia por COVID-19. Durante ese año, se reducen los reportes tanto en hombres como en mujeres, especialmente entre abril y junio. Sin embargo, la caída es más marcada en mujeres en términos absolutos debido a la magnitud de sus cifras. Como ya lo documenta Betancourt (2022), las restricciones de movilidad y el confinamiento pudieron afectar el acceso a los servicios médico-legales, la denuncia o la visibilización de los casos.

13 Posible solución

Dada la magnitud y constancia de los casos en mujeres, una posible solución está en fortalecer y focalizar las estrategias de prevención, protección y atención específicamente hacia ellas, sin dejar de lado la visibilización y apoyo para hombres víctimas, quienes aunque representan menos casos, continúan mostrando cifras relevantes.

14 Conclusión

Al integrar los resultados de las cuatro series analizadas (menores de edad, mayores de edad, mujeres y hombres) se evidencia un patrón claro y consistente: las niñas y adolescentes mujeres representan el grupo con mayor cantidad de exámenes médico-legales por presunto delito sexual en Colombia entre 2015 y 2024. La intersección entre ser menor de edad y ser mujer concentra la mayor carga de casos, superando ampliamente a los hombres y a las personas adultas. Esta tendencia se mantiene estable en el tiempo, lo que refleja una situación estructural de alta vulnerabilidad para las niñas, quienes enfrentan riesgos significativamente mayores.

Por otro lado, aunque los adultos y los hombres también registran casos importantes, sus niveles son considerablemente inferiores. Tanto en menores como en adultos se observó una disminución marcada en el año 2020, asociada a las restricciones y a la limitación en el acceso a servicios durante la pandemia, más no a una reducción real del delito. Posterior a este periodo, las cifras vuelven a incrementarse, reforzando la idea de que la problemática persiste como es mostrado en la previsión. En conjunto, las series muestran que el fenómeno afecta a todos los grupos, pero su impacto es desproporcionado en niñas y mujeres jóvenes, quienes deben ser el foco prioritario de las estrategias de prevención y protección.

15 Referencias