Descripción de la base de datos

La base de datos Monthly_Counts_of_Deaths_by_Select_Causes__2014-2019 escogida de la página web HealthData publicada en el 2021 , Esta base contiene 72 observaciones (registros menusales) correspondiente al país de Estados Unidos, abarcando un periodo continuo de seis años, en los cuales se recopilan 21 variables relacionaadas con la mortalidad. Además, incluye variables temporales(año y mes) y un conjunto de 17 causas específicas de muerte, todas expresadas por conteos mensuales sin valores faltantes , entre las que destacan fallecimientos por causas naturales, septicemia, neoplasias maligna, diabetes, Alzheimer, enfermedades respiratorias, accidentes, homicidios, suicidios y sobredosis por drogas. Las variables de estudio son: Septicemia y diabetes mellitus, dos tipos de enfermedades impactantes entre la sociedad.

Conceptos claves

AIC Y BIC

El criterio de información de Akaike y el criterio de información bayesiano de Schwarz (BIC) son dos ejemplos. Según Chen, P., Niu, A., Liu, D., Jiang, W. y Ma (2018), son procedimientos que se usan frecuentemente para escoger modelos idóneos y están explicados en las ecuaciones de AIC y BIC, respectivamente.

\[ \text{AIC} = -2 \log (L) + 2k \] \[ \text{BIC} = -2 \log (L) + k \ln (n) \]

KPSS-test

La hipótesis nula de estacionariedad alrededor de una tendencia se confronta con el test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS) para comprobar la suposición de estacionariedad. Esta prueba adicional posibilita verificar que las series temporales no tienen elementos de tendencia que pongan en peligro la validez de los modelos de pronóstico (López, 2002).

Hipótesis

  1. \(H_0:\) El proceso es estacionario en tendencia.
  2. \(H_1:\) La serie tiene una raíz unitaria.

Si el p-valor < 0.05 se rechaza \(H_0\).

Modelo SARIMA

Según Tróchez, J. & Valencia, M. (2014). El modelo SARIMA que refleja la característica de variación estacional en series de tiempo. Generalmente, la serie de tiempo original \(\{Y_t\}\) utiliza un operador de retardo \(B\) para procesar SARIMA \((p,d,q) \times (P,D,Q)_s\). Un ARIMA estacional el modelo puede escribirse como:

\[ \phi(B) \phi_p(B^S) (1 - B)^d (1 - B^S)^D Y_t = \theta_q(B) \theta_Q(B^S) \varepsilon_t\]

¿Cómo identificar el mejor modelo?

Los dos enfoques más utilizados para seleccionar los modelos adecuados son el criterio de información de Akaike (AIC) y el criterio de información bayesiano de Schwarz (BIC). De acuerdo a Chinlli, C. M. (2021), el modelo resulta ser más eficaz cuando el valor de AIC es inferior. Por lo tanto, el modelo de predicción ideal se elige según el que presente el ajuste más adecuado, teniendo el valor AIC más bajo del conjunto.

Según Noor et al. (2022) el AIC y BIC:

\[ \text{AIC} = -2 \log (L) + 2k = -2 \log (L) + 2(p + q + P + Q) \] \[ \text{BIC} = -2 \log (L) + k \ln (n) = -2 \log (L) + (p + q + P + Q) \ln (n) \]

En esta situación, n designa un conjunto de observaciones y k indica un grupo de parámetros ARIMA. Demostramos de manera empírica que nuestro modelo se volvía más eficaz conforme el valor de AIC disminuía. Se estableció que el modelo que presentaba el valor de AIC más reducido era el modelo de predicción que ofrecía el mejor ajuste (Box et al., 2015).

Prueba de LJung-box

Permite evaluar si una serie carece de correlación utilizando la autocorrelación estimada \(\hat{\rho}(k)\). Con base en ella, se plantean las siguientes hipótesis para comprobar la presencia o ausencia de correlación en los residuos (Tróchez, J. & Valencia, M. 2014).

\[ H_0: \text{No hay autocorrelación} \qquad H_1: \text{Hay autocorrelación} \]

Con el estadístico de prueba:

\[ Q = T \sum_{k=1}^{m} \hat{\rho}^2(k) \sim \chi^2_{m} \]

Corresponde al estadístico observado y

\[ V_p = P(\chi^2_m \ge Q_{\text{obs}} \mid H_0 \text{ es cierto}) \]

Si \(V_p < 0.05\) se rechaza \(H_0\), y si \(V_p > 0.05\) no se rechaza \(H_0\).

Análisis Descriptivo

Estadísticas Descriptivas

Primero se realiza un análisis descriptivo para caracterizar de forma preliminar la forma, la tendencia central y dispersión de las series de estudio. Esta etapa es indispensable porque permite identificar rasgoas básicos (asimetría, presencia de variabilidad y picos), condicionando las decisiones metodológicas.

Análisis descriptivo completo - Mortalidad (2014-2019)
Variable Observaciones Media Mediana Desviación Mínimo Máximo Asimetría Curtosis
Diabetes Mellitus 72 6836.6 6714 611.2 5802 8674 0.7 0.14
Septicemia 72 3338.8 3248 328.9 2886 4502 1.1 1.12

En el caso de la variable septicemia, la asimetría positiva 1,1 indica una distribución donde la mayoría de los meses presentan una mortalidad moderada, pero existen algunos periodos con valores excepcionalmente altos que amplian la cola derecha. Esto sugiere que estos picos atípicos tienen un impacto significativo.

El valor de la curtosis de 1.12, indica una distribución leptocúrtica, lo que significa que tiene un pico más pronunciado y colas más pesadas que una distribución normal. La aproximidad entre la media y la mediana no esta sujetada por pocos valores extremos y los datos estan concentrados entre estos valores no estan alejados , como se observa en la desviación.

Por otro lado la variable diabetes mellitus, la asimetria positivia 0,7 indica una distribución más estable y menos sesgada que la de la septicemia. Esta simetría indica que las observaciones se distribuyen de forma más estable alrededor de la media, sin pronunciación de colas altas en los extremos. Asimismo como la serie de septicemia la media y la mediana son cercanas, reforzando la idea de que no existen valores atípicos extremos que desequilibre las medidas de tendencia central.

La curtosis de 0.14 indica que los datos provienen de una distribución leptocúrtica como en la de septicemia con un pico más notorio y colas más pesadas. El dato más marcado a comparación de la septicemia es su mayor desviación esta mayor variabilidad que supera ampliamente la observada en la septicemia, sugiere oscilaciones más marcadas en las cifras de mortalidad a través del tiempo.

Con base a estos indicadores se justifica proceder con gráficos representativos y de gran impacto para el estudio.

Serie muertes por Septicemia

Histograma para septicemia 2014-2019

El histograma presenta la distribución de frecuencias de las muertes mensuales por septicemia durante el periodo 2014-2019. El rango de valores se extiende desde 2800 hasta 4500 casos de muertes por mes, con una densidad que muestra concetración en los valores más bajos. La distribución presenta un claro sesgo positivo, con la cola de la distribución ampliandose hacía la derecha; la mayor dendisad de observaciones se encuentra entre 3000 y 3500, mientras que los valores superiores a 4000 representan meses con incrementos significativos de mortalidad.

A continuación se busca evaluar qué distribución teórica se ajusta mejor al comportamiento empírico de la serie de septicemia, utilizando criterios de información (AIC/BIC) para respaldar la selección de cuál es la mejor distribución.

Análisis de distribuciones

Comparación de Ajuste de Distribuciones para la variable de Septicemia
Distribución AIC BIC
Normal 1041.92 1046.47
Log-Normal 1035.17 1039.73
Poisson 2948.39 2950.67
Gamma 1037.41 1041.97
Weibull 1063.20 1067.75

La distribución con mejor AIC y BIC con los valores más bajos es la distribución log-normal indicando el mejor ajuste para la septicemia. Esto es notado con la asimetría positiva identificada previamente y sugiere que los valores de mortalidad tienen un comportamiento multiplicativo contrario al aditivo. La distribución log-normal se caracteriza de procesos donde los valores se multiplican en lugar de sumarse, coherente con la propagación de infecciones. Por lo consiguiente se muestra las distribuciones representadas al rededor de la distribución empírica.

Histograma con distribuciones

La comparación visual de los ajustes de distribución sugiere que la distribución Log-Normal es el modelo que mejor describe el patrón de ocurrencia para el número de muesrtes por septicemia, coincidiendo con las estadistícas previamente utilizadas. Este hallazgo implica que los fenómenos subyacentes que generan los datos tienen una naturaleza que se aproxima a una distribución logarítmica, lo cual es visto en variables que son sesgadas positivas y no pueden tomar valores menores a 0 , en este caso el número de muertes.

Sin embargo en la zona del pico máximo del histograma, la Log-Normal y la Gamma parecen estar más cerca a la barras que la normal, además, las tres distribuciones Gamma, Log-Normal y Normal logran capturar la forma de la distribución de los datos. Mientras que la distribución Weibull muetra el peor ajuste visual, siendo su pico más bajo y más ancgo que el de las otras distribuciones y el histograma.

Después se realiza el histograma para diabetes, como la elección de la mejor distribución que captura los datos, como la visualización de las distribuciones.

Antes de profundizar en el comportamiento de las series temporales y en las dinámicas estacionales, es fundamental realizar una evaluación visual de la distribución de los datos. En este contexto los boxplots costituyen un papel importante siendo una herramienta exploratoria esencial para identificar los patrones de dispersión, variabilidad y la identificaación de datos atípicos.

Boxplot septicemia

La distribución de la mortalidad por septicemia durante el periodo 2014-2019, analizada mediante el boxplot, revela una mediana ubicada en 3248 muertes, lo que signfica que la mitad de los años observados registraron una cifra de fallecimientos igual o menor a esta cifra. el \(50\%\) central de los datos se concentran entre el primer cuartil cercano a 3150 muertes y el tercer cuartil cerca a 3500 muertes, el rango intercuartílico indica una moderada dispersión en el patrón de mortalidad. La posición de la mediana cercana al primer cuartil y junto con un bigote bigote derecho que se extiende más que el izquierdo, sugiere una asimetría positiva, o sea un sesgo a la derecha en la distribución, implicando que el número de muertes tiende a desviarse más hacía valores altos que a los valores bajos. La existencia de dos valores atípicos, que se encuentran en torno a las 4250 y 4500 muertes. Estos puntos indican años concretos en los que la mortalidad por septicemia fue más elevada, sobrepasando lo esperado de variabilidad.

Análisis de la variabilidad anual mediante boxplot

Tras el análisis descriptivo y la identificación de patrones a través del tiempo, se procede a examinar la variabilidad temporal de las series mediantes boxplots organizado por año y mes.

El boxplot presenta la distribución anual del número de muertes por septicemia entre 2014 y 2019. Se observa que la mediana de muertes, muestra una tendencia general al incremento desde 2014 hasta 2017-2018, estabilizándose alrededor de las 3,300 muertes, y luego disminuyó ligeramente en 2019. Los años 2015, 2016, 2017 y 2018 exhiben las medianas más altas y también la mayor dispersión intercuartílica, lo que indica una mayor variabilidad en el número de muertes en comparación con 2014 y 2019.

Análisis de la variabilidad mensual mediante boxplot

Boxplot de muertes por Septicemia por mes

El boxplot de muertes por septicemia por mes revela un marcado patrón en la mortalidad. Se observa un claro comportamiento donde los valores centrales de muertes son consistentemente más bajos durante los meses de julio, agosto, septiembre y octubre con la mediana de estas situandose justas o por encxima de las 3000 muertes.

En contraste se evidencia mayor aumento en meses como diciembre, enero, sebrero y marzo. Destacando el mes de enero con la mediana por encima de los 4000 reportes de defunción y un rango intercuartil mostrando una gran dispersión y los valores más altos de toda la serie.

Ahora se examina la relación entre dos variables para averiguar si muestran tendencias similares significativas. Esto ayudaría a decidir si se pueden estudiar juntas.

Scatterplot

En el gráfico de dispersión se observa una clara relación lineal positiva y fuerte entre las dos variables. Esto se evidencia por el patrón de los puntos de dispersión a agruparse a lo largo de la línea de regresión. A medida que el número de muertes por septicemia aumenta, el número de decesos por diabetes mellitus también tiende a aumentar. La pendiente positiva también denota la correlación directa. Además la banda de confianza alrededor de la línea es estrecha, lo que sugiere que el modelo lineal es buen predictor de la relación.

Para comprender de una mejor manera la relación entre las dos variables de estudio, a continuación se muestra el valor de la correlación.

Correlación

## [1] 0.7752011

El valor de correlación obtenido, 0.7752011, indica una correlación lineal positiva y fuerte entre las dos variables analizadas (muertes por Septicemia y muertes por Diabetes Mellitus), demostrando válidez de lo anterior.

Una vez caracterizada la distribución y el comportamiento estadístico de la variable en el análisis descriptivo, se procede al estudio del análisis de series de tiempo.

Serie de tiempo

A continuación se presenta lás gráficas de la serie muertes por septicemia.

Serie de tiempo- Septicemia

La gráfica de la serie temporal muertes por septicemia, revela un patrón a lo largo de los años. La característica más notoria es el ciclo donde el número de muertes alcanza picos altos al comienzo de cada año, llegando a valores superiores de 3700 muertes. Inversamente los decesos cae a niveles minimos minimos entre mitad de cada año cerca a las 3000 muertes. A pesar de la intensa variación de los patrones, se nota a largo plazo que la tendencia se mantiene plana o estable entre el periodo de 2014-2019. Sin embargo, se observa una cifra por encima de todos los años a principios de 2018, donde la serie registra un pico extremo, alcanzando la cifra más alta registrada.

Mapas de calor

Para dar evidencia de estos patrones se da uso de los mapas de calor, los cuales sirven para visualizar y analizar patrones, tendencias y fluctuaciones a lo largo del tiempo. Permitiendo identificar periodos de alta o baja actividad, predecir tendencias futuras y detectar anomalías o puntos críticos-

Mapa de calor serie septicemia

El mapa de calor mensual para la serie muertes por septicemia durante el periodo 2014-2019, revela una marca de patrones en la mortalidad. La codificación por color indica que los valores mínimos de muertes(color azul representada alrededor de 3000), se concentran esencialmente en el segundo y tercer trimestre a lo largo de todos los años. caso contrario con el primer trimestre y diciembre donde el número de muertes por septicemia es mayor(color rojo). Se observa una variación extrema a principios de 2018, donde el mes de enero registra el número más alto, destacandose como una anomalía, rompiendo con el comportamiento de los años vecinos.

Descomposición de las series

Una vez identificados los patrones de variabilidad mensual mediante el uso de boxplots, se procede a realizar una descomposción formal de las serie temporal(aditiva y multiplicativa). Esta técnica permite reducir la serie temporal en componentes que sean simples de modelar.Descomposición de la serie septicemia-

En la descomposición aditiva de la serie de muertes por septicemia asume que los patrones estacionarios mantienen una secuencia constante con picos altos y decrecimientos notorios, siendo reflejados en la tendencia. Por otro lado la descomposición multiplicativa muestra que el componente de estacionariedad como de tendencia son proporcionales, significando que los patrones cambian si el comportamiento de la serie crece o decrece.

Al observar ambos gráficos de descomposición, se corrobora que la estacionariedad es el componente más sobresaliente, con patrones recurrentes y su secuencia. Sin embargo, la tendencia de la serie se mantiene plana y estable: la magnitud de los movimientos de estacionariedad no parece aumentar con la serie, siendo el mejor la descomposción aditiva porque no es proporcional al comportamiento de la serie.

Estacionariedad

Una vez identificados y descompuestos los componentes que estructuran las series temporales, se procede a evaluar su estacionariedad mediante el test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS)

KPSS Test

Estacionariedad para septicemia

## 
##  KPSS Test for Level Stationarity
## 
## data:  septicemia_ts
## KPSS Level = 0.081005, Truncation lag parameter = 3, p-value = 0.1

El anáisis de estacionariedad para la serie temporal de muertes por septicemia, utilizando el test de KPSS, indica que la serie es estacionaria. Este resultado se obtiene dado que el p-valor de la prueba es de 0.1, un valor mayor que el nivel de significancia de 0.05.

Por lo tanto no se rechaza la hipótesis nula donde el proceso es estacionario en tendencia, es decir, las muertes por septicemia no cambia sinificativamente a lo largo del tiempo. Para corraborar esto se da uso a la función ndiffs, de esta manera se comprueba cuantas diferencias necesita para volverse estacionaria o no necesita.

## [1] "La serie no necesita diferencias."

Función de autocorrelación y función de autocorrelación parcial(FAC, FACP)

FAC Y FACP muertes por septicemia

La gráfica correspondiente a la función de autocorrelación parcial, muesta una caída progresiva y lenta, con valores significativos que superan la banda de confianza a lo largo de los lags, la persistencia de la autocorrelación confirma que los valores anteriores distantes influyen en los futuros. Por su parte la función de autocorrelación parcial muestra un decaimiento brusco después del primer rezago y, posteriormente, una trayectoría con fluctuaciones marcadas , alternando entre caídas marcadas con picos elevados.

Identificación del modelo

Una vez analizados los patrones de autocorrelación y confirmada la estacionariedad de las series, se procede a la etapa de identificación y formalización de los modelos AR, MA, ARMA, ARIMA y SARIMA.

Modelo para la serie septicemia

## Series: septicemia_ts 
## ARIMA(4,0,1) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3      ar4      ma1       mean
##       0.8876  0.0374  -0.1248  -0.3078  -0.5630  3352.0878
## s.e.  0.1698  0.1776   0.1685   0.1348   0.1478    23.4703
## 
## sigma^2 = 53401:  log likelihood = -491.89
## AIC=997.79   AICc=999.54   BIC=1013.72

\[ X_t = 0.8876\,X_{t-1} + 0.0374\,X_{t-2} - 0.1248\,X_{t-3} - 0.3078\,X_{t-4} - 0.5630\,\varepsilon_{t-1} + \mu + \varepsilon_t \]

El proceso de seleccióm mediante auto.arima establece el modelo ARiMA (4,1) con media no cero, mediante, ya que registró el menor valor AIC (997.7882), indicando el mejor balance entre la precisión del ajuste y la complejidad del ajuste. Este modelo tiene un componente autorregresvio de orden cuatro (AR4) y un componente de medias móviles de orden uno (MA1)., con una orden de diferenciación I(0), que valida el resultado por la prueba KPSS de que la serie es estacionaria.

  • Identificación mediante modelos SARIMA

Tras el análisis de modelos ARIMA, se procede con la identificación formal del modelo SARIMA óptimo.

Modelo SARIMA para la serie septicemia

## Series: septicemia_ts 
## ARIMA(1,0,0)(2,1,0)[12] 
## 
## Coefficients:
##          ar1     sar1     sar2
##       0.6824  -0.8804  -0.6126
## s.e.  0.0949   0.1305   0.1114
## 
## sigma^2 = 13036:  log likelihood = -375.93
## AIC=759.86   AICc=760.59   BIC=768.24

Modelo mediante operador de retardo

\[ (1 - 0.6824 B)(1 - B^{12})(1 - 0.8804 B^{12} - 0.6126 B^{24})X_t = \varepsilon_t \]

diferencia estacional \[ (1 - B^{12})X_t = X_t - X_{t-12} \]

Aplicando el operador SAR al término diferenciado

\[ (1 - 0.8804 B^{12} - 0.6126 B^{24})(X_t - X_{t-12}) = \varepsilon_t + 0 \]

Reemplazando

\[ X_t = X_{t-12} + 0.8804(X_{t-12} - X_{t-24}) + 0.6126(X_{t-24} - X_{t-36}) + 0.6824 X_{t-1} - 0.6824 X_{t-13} + \varepsilon_t \]

El análisis de identificación de modelos para la serie septicemia, que es una serie estacionaria en tendencia con una fuerte estacionariedad, culminó en la selección del modelo SARIMA(1,0,0)(2,1,0)[12] como la estructura óptima, al registrar el menor valor AIC correspondiente a (759.8629). Este modelo confirma la estacionariedad al no requerir diferenciación., mientra que incorporaa un componente autorregresivo de orden 1 (AR1). En otro aspecto, el componente estacional introduce una diferenciación estacional (D=1) y un componente autorregresivo estacional de orden 2 (SAR1 y SAR2), esta combinación aasegura que el modelo es la estructura más adecuada y precisa.

Segundo Modelo SARIMA

## Series: septicemia_ts 
## ARIMA(1,1,1)(2,1,0)[12] 
## 
## Coefficients:
##          ar1      ma1     sar1     sar2
##       0.4253  -0.8207  -0.8798  -0.6557
## s.e.  0.1663   0.0925   0.1239   0.1064
## 
## sigma^2 = 12839:  log likelihood = -369.77
## AIC=749.54   AICc=750.67   BIC=759.92

\[ (1 - 0.4251 B)(1 - B)(1 + 0.8804 B^{12} + 0.6560 B^{24})X_t = (1 - 0.8210 B)\varepsilon_t \]

\[ (1 + 0.8804 B^{12} + 0.6560 B^{24})(X_t - X_{t-1}) = \varepsilon_t - 0.8210 \varepsilon_{t-1} \]

\[ X_t - X_{t-1} + 0.8804 (X_{t-12} - X_{t-13}) + 0.6560 (X_{t-24} - X_{t-25}) = \varepsilon_t - 0.8210 \varepsilon_{t-1} \]

\[ X_t = X_{t-1} + 0.8804 X_{t-12} - 0.8804 X_{t-13} + 0.6560 X_{t-24} - 0.6560 X_{t-25} + \varepsilon_t - 0.8210\varepsilon_{t-1} \]

Para la serie septicemia, que exhibe una clara tendencia y una estacionalidad anual . Dicho análisis mediante la función auto.arima concluyó que el modelo SARIMA(1,1,1)(2,1,0)[12] era la mejor alternativa, dado que arrojó el valor más bajo del criterio AIC 749. 54. Este modelo sugiere que la serie necesitaba una diferenciación regular (d=1) para lograr la estacionariedad. Asimismo, incluye un componente autorregresivo de orden 1 (AR1) y un componente de medias móviles de orden 1 (MA1), que modelan el comportamiento a corto plazo. En cuanto a la parte estacional, el modelo incorpora una diferenciación estacional (D=1) y un término autorregresivo estacional de orden 2 (SAR2).

Prueba de los residuos

Análisis gráfico de los residuos del modelo ARIMA(4,0,1)

El gráfico señala que los residuos del modelo ARIMA(4,0,1) se comporta de manera aleatoria alrededor de cereo, lo que indica que el modelo explica adecuadamente la estructura temporal de los datos. No hay presencia de tendencias, de patrones recurrentes, lo cual refuerza la ídea de un ajuste adecuado. No obstante, el pico alto hacía 2018, que sugiere la presencia de un evento insual.

De acuerdo a las cuatro gráficas, en la primera los residuos fluctúan aaleatoriamente alrededor de cero y mantienen una varianza constante, excepto el valor atípico marcado alrededor de 2018. Los gráficos de autocorrelación (FAC) y autocorrelación parcial(PACF) muestran que existen rezagos significativos conduciendo que no son ruidos blanco. El gráfico Q-Q Plot muestra que los residuos siguen aproximadamente una distribución normal, ya que la mayoría de los rangos se alínean a lo largo de la líonea diagonal teórica. Sin embargo, se observa una desviación en las colas particularmente en el extremo superior derecho, donde los puntos se separan.

Análisis gráfico de los residuos del modelo SARIMA(1,0,0)(2,1,0)[12]

El gráfico de la serie temporal de los residuo del SARIMA(1,00)(2,1,0)[12], se observa que la serie oscila alrededor de cero, lo cual es la característicadeseable del ruido blanco. Sin embargo, persisten dos valores atípicos un pico alto correspondiente al 2018 y un pico negativo significativo en el 2019, lo que sugiere eventos externos.

De acuerdo a los gráficos se observa que la estructura temporal clave ha sido bien representada: los residuos no muestran ni patrones definidos ni autocorrelación relevante. No obstante, la aparición de dos datos inusuales influye en la forma en que se distribuyen los errores, produciendo colas más anchas y diferencias con la normalidad apreciable en el gráfico Q-Q.

Análisis gráfico de los residuos del modelo SARIMA(1,1,1)(2,1,0)[12]

La representación gráfica de la serie temporal de los residuos del modelo SARIMA revela oscilaciones en torno al valor cero, lo cual se alinea con la conducta anticipada de un proceso de ruido blanco. Sin embargo, se identifican variaciones significativas, como un aumento notable cerca de 2018 y una caída negativa marcada hacia 2019, lo que insinúa la existencia de posibles valores anómalos vinculados a sucesos externos que el modelo no recoge.

Los residuos del modelo SARIMA fluctúan alrededor de cero sin mostrar tendencia clara, lo cual es deseable. En el FAC y FACP no aparecen autocorrelaciones significativas, indicando que no queda estructura por modelar. El Q-Q plot muestra cierta desviación en las colas, lo que sugiere ligera no normalidad, pero en general los puntos siguen la línea teórica.

Análisis mediantes estadísticos

Comparación de modelos ARIMA para septicemia
Modelo AIC BIC KPSS_p LjungBox_p Normalidad_p
ARIMA(4,0,1) 997.7882 1013.7248 0.10000 0.00683 0.00990
ARIMA(1,0,0)(2,1,0)[12] 759.8629 768.2403 0.03838 0.44850 0.00129
ARIMA(1,1,1)(2,1,0)[12] 749.5371 759.9248 0.10000 0.22255 0.00023

Tras el análisis comparativo, se aprecia que el modelo ARIMA(1,1,1)(2,1,0)[12] sobresale para la serie temporal de septicemia. Esto se debe a que exhibe los valores de AIC y BIC más reducidos, ayudado por un resultado positivo en la prueba de Ljung-Box, lo que sugiere que los residuos carecen de autocorrelación relevante. El modelo ARIMA(1,0,0)(2,1,0)[12] se posiciona como la segunda alternativa más viable, si bien su prueba KPSS apunta a una estacionariedad algo menor. Por el contrario, el modelo ARIMA(4,0,1) se distingue como el menos conveniente, dado que sus valores de AIC y BIC son considerablemente altos. Si bien los residuos de ningún modelo cumplen estrictamente con la normalidad, el modelo ARIMA(1,1,1)(2,1,0)[12] logra equilibrar ajuste, criterios residuales aceptables.

Previsiones

Una vez identificado y validado el modelo ARIMA y SARIMA óptimo para la serie, se genera la proyección de previsiones, que constituye uno de los objetivos principales de este estudio.

Previsión serie septicemia con ARIMA

El gráfico de previsión realizado con el modelo ARIMA(4,0,1) muestra curvas onduladas para el período 2020-2022 que tiende a la media histórica de la serie de septicemia. Está previsión es inadecuada ya que ignora completamente la fuerte estacionariedad. El modelo no estacional no puede capturar la naturaleza mensual de los datos , lo cuál resulta en una previsón que carece de precisión temporal aunque este presente las bandas de confianzas y un crecimiento estricto.

Previsión serie septicemia con SARIMA(1,0,0)(2,1,0)[12]

La previsión producido por el modelo ARIMA(1,0,0)(2,1,0)[12] exhibe una proyección que se alinea con la estacionariedad anual observada anteriormente en la serie de casos de septicemia. El comportamiento que se anticipa mantiene los picos regulares característicos de los meses con mayor incidencia, así como las caídas significativas en los períodos de menor actividad, lo que sugiere que el modelo refleja de manera efectiva la dinámica estacional. La banda de confianza se expande a medida que se extiende temporalmente.

Previsión serie septicemia con SARIMA(1,1,1)(2,1,0)[12]

La previsión generada por el modelo ARIMA(1,1,1)(2,1,0)[12] preserva la estacionariedad distintiva de la serie, reflejando los máximos y mínimos anuales que se anticipan. A medida que avanza el tiempo, las bandas de confianza se expande, sin embargo, la previsiónprincipal permanece firme y se ajusta a la tendencia histórica. En resumen, el modelo anticipa un desarrollo futuro que es coherente y se corresponde con el comportamiento anterior de la serie.

Planteamiento de problemas

Problema serie septicemia

  • ¿Qué evento podrían explicar los meses con valores atípicamentes altos o bajos en las muertes por septicemia?

Posible solución

Basado en el estudio de Levy ett al. (2024),la variación mensual en las muertes por septicemia en Estados Unidos suele estar influenciada por un marcado patrón estacional. Estudios epidemiológicos han demostrado que la incidencia y la mortalidad por sepsis tiende a aumentar durante los meses de invierno. Un análisis realizado durante los años 2017-2019, se encontraron en los datos su mayor frencuencia de sepsis, así como la mortalidad asociada, se concentraba en enero mientras que los valores bajos se encontraban en julio. Los autores atribuyen a un incremento invernal de infecciones respiratorias, como la neumonía viral o bacteriana.

Otro factor primordial que contribuye para la solución de este problema es la interacción entre sepsis y epidemias por temporada, especialmente la gripe. Durante temporada de la influenza intensa, aumentam simúltaneamente la hospitalización por neumonía y complicaciones graves, elevando la probabilidad de presentar septicemia. Esto ya fue reportado por los Centers for Diseasea control and prevesion , que señalan que una parte significativa de las muertes por influenza están asociadas por sepsis(Epstein et al., 2016).

Serie muerte por Diabetes Mellitus

Histograma para diabetes mellitus 2014-2019

El histograma muestra la distribución de muertes mensuales por diabetes mellitus durante el periodo 2014-2019, con un rango comprendido entre 5800 y 8700 casos. La forma se aproxima a una distribución simétrica con sesgo negativo o sesgo a la izquierda. Esto se debe a que la cola de la distribución es más larga y extendida hacia los valores menores, mientras que el descenso hacia los valores mayores es más brusco, la densidad se concetra entre valores altos alrededor de 6500 y 6750, siendo estás cantidades de decesos que se ha observado con la mayor frecuencia durante el periodo analizado. La presencia de barras pequeñas y asiladas en el extremo derecho, indican la ocurrencia de valores extremos u atípicos.

Para validar esta selección, se emplearán los Criterios de Información (AIC y BIC), eligiendo la distribución que presente los valores más bajos en estos criterios, ya que indican el mejor equilibrio entre bondad de ajuste y complejidad del modelo.

Análisis de distribuciones

Mejores Distribuciones para Diabetes Mellitus
Distribución AIC BIC
Log-Normal 1127.33 1131.89
Gamma 1128.52 1133.07
Normal 1131.14 1135.70
Weibull 1147.40 1151.95

El análisis estadístico, basado en los criterios AIC y BIC, determina que la distribución Log-Normal es la distribución óptima pra representar los datos de mortalidad por diabetes mellitus. Este resultado supera por un margen al ajuste de la distribución Gamma y Normal, y confirma que la visualización empírica donde la distribución mostraba un sesgo, que la Log-Normal modela eficientemente. Además, es importante notar que la distribución Poisson registra los valores más altos en comparación con las otras distribuciones. Esto indica que la distribución de Poisson es inadecuada para modelar estos datos de mortalidad, ya que modela conteo de eventos no tasas o conteos de muerte. Por lo tanto, se presentan las distribuciones representadas en torno a la distribución empírica.

Histograma con distribuciones

La evaluación visual de las curvas de densidad superpuestas indica que la distribución Log-Normal y la distribución Gamma son las que logran la mejor superposición con la forma y la altura del histograma. Ambas distribuciones capturan de manera eficiente la ubicación del pico de la mayor frecuencia y el sesgo de la distribución observada. De acuerdo a los valores obtenidos por el AIC y BIC, la distribución Log-Normal es la mejor candidata y no por mucho con respecto a la Gamma siendo estás similares entre sus valores.

Antes de entrar en detalle sobre el comportamiento de las series temporales y las dinámicas estacionales, es clave llevar a cabo una revisión visual de cómo se distribuyen los datos. En este sentido, los diagramas de caja juegan un rol significativo, actuando como una herramienta exploratoria fundamental para detectar patrones de dispersión, variabilidad y la identificación de valores anómalos.

Boxplot diabetes mellitus

El boxplot de la distribución de muertes por diabetes (2014-2019), la mediana de la distribución, se localiza cercana a 6700. Este valor indica que la mitad de los años observados registraron cifras de muertes igual o inferior a 6700. La caja indica que el primer cuartil se encuentra cercana a 6500, mientras que el tercer cuartil se encuenntra alrededor de 7100 muertes. Esta concentración de datos en un rango estrecho, sugiere una baja dispersión en el número de decesos más comunes para esta enfermedad. La simetría de la distribución en su parte central es notable, dado que la mediana esta cercana a la mitad de la caja. Aunque, la distribución muestra una ligera asimetría a la derecha evidenciada por la longitud del bigote derecho mayor que el bigote izquierdo. El bigote izquierdo, se sitúa cerca de las 6100 defunciones, sin indicar valores atípicos. En contraposición, el bigote derechoroza las 8000 muertes. Sin embargo, la presencia de dos outliers, resulta clave para entender la dispersión. La tasa de mortalidad vinculada a la diabetes alcanzó picos inusuales en los años correspondientes a estas cifras atípicas.

Análisis de la variabilidad anual - boxplot

Tras el análisis descriptivo y la identificación de patrones a través del tiempo, se procede a examinar la variabilidad temporal de la serie mediantes boxplots organizado por mes y año.

El boxplot ilustra la distribución anual del número de muertes por diabetes mellitus en el período de 2014 a 2019. Se observa una clara tendencia ascendente en la mediana del número de muertesa lo largo de los años, comenzando cerca de 6,300 en 2014 y superando las 7,200 en 2019, lo que sugiere un incremento progresivo en la carga de mortalidad por esta causa. La dispersión intercuartílica se mantuvo relativamente estable, aunque los años 2017, 2018 y 2019 muestran consistentemente valores más altos que los años anteriores. El año 2019 presenta la mediana más alta y un rango intercuartil también elevado.

Boxplot para la serie diabtes mellitus por mes

El gráfico de cajas y bigotes o boxplot para las muertespor diabetes mellitus mensual, permite visualizar los patrones altos de mortalidad por esta enfermedad. Se observa una variación a lo largo del año, donde las medianas y los rangos intercuartílicos aumentan por cada uno de los meses. La mortalidad más baja se registra entre los meses de junio a septiembre con la mediana de estos meses acercandose a 65000. Caso contrario, a la mortalidad más alta que ocurre en los meses de enero, febrero, marzo y diciembre, donde las cajas se mueven hacía la derecha con medianas cercanas o por encima de 7000.

Los meses con mayor número de muertes son enero y diciembre con mayor dispersión y los valores centrales más altos. Enero, en particular presenta la caja más alta y bigotes extendidos a cifras mayores, indicando que no solo tiene el número promedio mayor, sino que la variabilidad entre cada año es la máxima durante este mes. Además se identifican outliers o valores atípicos en los meses de febrero y mayo, lo que sugiere durante años específicos se produjeron picos de mortalidad inusuales fuera de los límites de variación.

Luego se presenta lás gráficas de la serie muertes por diabetes mellitus.

Serie de tiempo - diabetes mellitus

La gráfica de la serie temporal de muertes por diabetes mellitus en Estados Unidos muestra un comportamiento muy marcado. A lo largo de cada año, el número de muertes experimenta un aumento que culmina en un pico alto, la mortalidad desciende significativamente hasta alcanzar sus valores mínimos cerca de la mitad de cada año. Este patrón es un rasgo de la serie, con picos situandose cerca o por encimade 7500 muertes y los puntos minimos cerca o por de 6000 muertes para los tres primeros años.

Aunque el comportamiento general a largo plazo no muestra un crecimiento o decrecimiento drastico, se observa un pico alto a principios de 2018, el número de muertes se disparó. Este pico es más alto a comparación que los máximos de los otros años, rompiendo con el patrón marcado en la serie.

Mapas de calor

Para demostrar estos patrones, se utilizan los mapas de calor, que son herramientas para observar y estudiar patrones, tendencias y cambios a lo largo del tiempo. Esto facilita la identificación de fases de alta o baja actividad, la predicción de tendencias venideras y la detección de irregularidades o situaciones clave.

Mapa de calor de la serie diabetes mellitus

El mapa de calor mensual para la serie de muertes por diabetes mellitus durante el periodo de 2014 hasta el 2019, revela una marca en los patrones de mortalidad. La catalogación de tonos de colores muestran que los picos de muertes se muestran mayormente en los primeros tres meses de cada año y en diciembre. En los meses de abril hasta septiembre se encuentran en disminución en la mayoría de los años. En el caso del 2018 el mes de enero presenta el color más intenso de azul oscuro correspondiente a 8674 siendo esta el número más alto de muertes a comparación de cada uno de los años y meses, además, el mes de enero durante el periodo de estudio se evidencia casos más altos de defunción por diabetes mellitus.

Descomposición de las series

Una vez identificados los patrones de variabilidad mensual mediante el uso de boxplots, se procede a realizar una descomposción formal de las serie temporal(aditiva y multiplicativa). Esta técnica permite reducir la serie temporal en componentes que sean simples de modelar.

Descomposición de la serie diabetes mellitus

La descomposción aditiva para la serie diabetes mellitus asume que las variaciones de la estacionariedad se integran a la tendencia de forma constante; se evidencia un crecimiento sostenido en la tendencia a lo largo del periodo 2014-2019. El componente de estacionariedad muestra picos y bajadas recurrentes a través de cada uno de los años siendo constante, a pesar del aumento de la tendencia, el componente de ruido se encuentra al rededor de cero.

En contraste la descomposición multiplicativa, el componente de estacionariedad también muestra picos y bajadas recurrentes pero como un factor de la tendencia. Debido a que la tendencia es creciente, se espera que la estacionariedad fuera mayor en los últimos años si la descomposición multiplicativa fuera la adecuada. No obstante, al comparar la extensión de las variaciones con respecto a la serie , se percibe que los picos de estacionariedad no necesariamente aumenta a medida que la tendencia crece. Por lo tanto aunque la tendencia es creciente, el componente estacional de muertes por diabetes mellitus se ajusta mejor a patrones constantes, siendo esta la descomposición aditiva.

Estacionariedad

Una vez identificados y descompuestos los componentes que estructuran las series temporales, se procede a evaluar su estacionariedad mediante el test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS).

KPSS test

Estacionariedad para diabetes mellitus

## 
##  KPSS Test for Level Stationarity
## 
## data:  diabetes_ts
## KPSS Level = 0.63817, Truncation lag parameter = 3, p-value = 0.01917

La serie de muertes por diabetes mellitus, la prueba KPSS, indica que la serie no es estacionaria. El p-valor resultante es de 0.01917,un valor que al ser menor al nivel de significancia de 0.05, dirige a rechazar la hipótesis nula de estacionariedad. Esto implica que la media de muertes por diabetes no es constante a lo largo del tiempo, lo cual se apoya por la observación previa del compronente de tendencia siendo ligeramente creciente a través de la serie. Para corraborar la necesidad de transformación y determinar el número de diferencias que requiere la serie para convertise en estacionaria, se utiliza la función ndiffs.

## La serie necesita diferenciación.
## Número de diferencias sugeridas:  1

Para corregir esta no estacionariedad y prepara la serie para el modelado, la función ndiffs sugiere que se requiere una diferencia.

## 
## Prueba KPSS - Diabetes diferenciada:
## 
##  KPSS Test for Level Stationarity
## 
## data:  diabetes_diff
## KPSS Level = 0.071878, Truncation lag parameter = 3, p-value = 0.1

Al aplicar la diferenciación a la serie de diabetes mellitus, la prueba de KPSS de la serie diferenciada arroja un p-valor de 0.1, por lo tanto no se rechaza la hipótesis nula es decir, la serie es estacionaria. Esto confirma que la aplicación de una primera diferencia fue necesaria para convertirse en estacionaria, volviéndola adecuada para los modelos, nuevamente se usa la función ndiffs para ratificar lo anteriror

## La serie NO necesita diferenciación.
## Número de diferencias sugeridas: 0

Después de la diferencia y la comprobación por la prueba KPSS, la visualización de la serie de diabetes mellitus después de aplicar la primera diferenciación, este gráfico permite evaluar visualmente el éxito del proceso de diferrenciación en la estabilización de la serie.

Gráfico de la serie diabetes mellitus diferenciada

El gráfico de la serie de tiempo de diabetes mellitus diferenciada ilustra el cambio mensual en el número de muertes tras aplicar una diferenciación. Se observa que la nueva serie se mueve alrededor de cero, confirmando que ahora es más estable. La serie diferenciada matiene la fuerte estacionariedad que la serie originalm pero ahora hay picos cercanos 1000 y decaimientos cercanos o menores -1000 representando la dimensión del aumento o disminución de un mes a otro.

Después de confirmarse la estacionariedad de las series mediante diferenciación y la prueba de KPSS, se procede a identificar la estructura de dependencia de las series a través de las funciones de autocorrelación(FAC) y autocorrelación parcial(FACP).

Función de autocorrelación y función de autocorrelación parcial(FAC, FACP)

FAC y FACP diabetes mellitus

En la serie de diabetes mellitus, la función de autocorrelación (FAC) muestra valores positivos y significativos que disminuyen de manera lenta a lo largo de varios rezagos. Este patrón sugiere una dependencia temporal y evidencia un comportamiento inusual como decaimientos grandes y picos elevados, donde los valores pasados influyen con los futuros. No obstante, la función de autocorrelación (FACP) presenta variaciones significativas después del primer rezago, con barras que superan repetidamente las bandas de confianza e igual a la función de autocorrelación presenta comportamientos excéntricos.

FAC y FACP diabetes mellitus diferenciada

Tras aplicar la diferencia, la función de autocorrelación(FAC) de la serie transformada muestra una disminuciónm marcada en la autocorrelación, concentrándose los valores significativos únicamente en los primeros rezagos. El resto de las autocorrelaciones caen dentros de las bandas de confianza, lo que indica que la serie se aproxima a un comportamiento estacionario. La función de autocorrelación parcial(FACP) de la serie evidencia dos picos altos mientras que los demas se encuentran dentro de los limites de confianza.

Identificación del modelo

Una vez analizados los patrones de autocorrelación y confirmada la estacionariedad de las series, se procede a la etapa de identificación y formalización de los modelos AR, MA, ARMA, ARIMA y SARIMA.

Modelo serie diabetes mellitus no diferenciada

## Series: diabetes_ts 
## ARIMA(4,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3      ar4       mean
##       0.5464  0.4001  -0.1475  -0.2963  6866.0630
## s.e.  0.1148  0.1336   0.1326   0.1155    98.0784
## 
## sigma^2 = 179097:  log likelihood = -535.71
## AIC=1083.41   AICc=1084.71   BIC=1097.07

\[ X_t = 6866.0630 + 0.5464\,X_{t-1} + 0.4001\,X_{t-2} - 0.1475\,X_{t-3} - 0.2963\,X_{t-4} + \varepsilon_t \]

La identificación de modelos para la serie de diabetes mellitus sin diferenciar establece el modelo ARIMA (4,0,0), con media no cero basándose en el menor valor AIC (1083.413). La selección de este modelo implica que la mejor manera de describir el compórtamiento de la serie a través de un componente autorregresivos de orden 4. Esto indica que el número de muertes en un mes dado depende significativamente de los valores de los cuatro meses inmediatamente anteriores, sin la necesidad de componentes de media móvil.

Modelo serie diabetes mellitus diferenciada

## Series: diabetes_ts 
## ARIMA(4,1,1) 
## 
## Coefficients:
##          ar1     ar2      ar3      ar4      ma1
##       0.4339  0.4001  -0.1458  -0.3951  -0.8953
## s.e.  0.1146  0.1235   0.1221   0.1129   0.0446
## 
## sigma^2 = 169172:  log likelihood = -526.7
## AIC=1065.4   AICc=1066.71   BIC=1078.97

\[ X_t = 1.4339\,X_{t-1} - 0.0338\,X_{t-2} - 0.5459\,X_{t-3} - 0.2493\,X_{t-4} + 0.3951\,X_{t-5} - 0.8953\,\varepsilon_{t-1} + \varepsilon_t \]

El análisis de identificación de modelos para la serie de diabetes mellitus diferenciada establece el modelo (4,1,1) con media no cero, al registrat el menor valor AIC(1065.398). Este modelo confirma la necesidad de una diferencia para estabilizar la media de la serie, para llegar a la estacionariedad. La estructura seleccionada combina un componente de autorregresivo de orden 4 (AR4) y un componente de media móvil de orden 1 (MA1). Este resultado indica que el cambio mensual en el número de muertes por diabetes mellitus está influenciado significativamente tanto por el componente autorregresivos como el de medias móviles en conjunto.

  • Identificación mediante modelos SARIMA

Tras el análisis de modelos ARIMA, se procede con la identificación formal del modelo SARIMA óptimo para cada serie.

Modelo SARIMA para la serie diabetes mellitus diferenciada y sin diferencia

  • Identificación para diabetes melllitus y la diferenciada

Modelo SARIMA para diabetes mellitus sin diferencia

## Series: diabetes_ts 
## ARIMA(0,0,1)(2,1,0)[12] with drift 
## 
## Coefficients:
##          ma1     sar1     sar2    drift
##       0.4934  -0.8053  -0.6791  15.4181
## s.e.  0.1148   0.0957   0.0942   1.1005
## 
## sigma^2 = 20104:  log likelihood = -389.44
## AIC=788.89   AICc=790   BIC=799.36

\[ (1 - 0.9627 B)(1 - 0.3395 B^{12} - 0.3022 B^{24})X_t = (1 - 0.7045 B)\varepsilon_t + 259.8942 \]

\[ X_t = 0.9627\,X_{t-1} + 0.3395\,X_{t-12} - 0.32683665\,X_{t-13} + 0.3022\,X_{t-24} - 0.29092794\,X_{t-25} + 259.8942 + \varepsilon_t - 0.7045\,\varepsilon_{t-1} \]

\[ (1 + 0.8053 B^{12} + 0.6791 B^{24})(1 - B^{12})X_t = (1 + 0.4934 B)\varepsilon_t + 15.4181 \]

\[ X_t = 15.4181 + 0.8053\,X_{t-12} + 0.6791\,X_{t-24} - 0.54804683\,X_{t-36} + \varepsilon_t + 0.4934\,\varepsilon_{t-1} \]

\[ (1 - (-0.3212)B - (-0.3824)B^{2})(1 - (-0.7891)B^{12} - (-0.7110)B^{24})(1-B)X_t = \varepsilon_t \]

\[ X_t = 1.3212\,X_{t-1} + 0.3824\,X_{t-2} + 0.7891\,X_{t-12} - 1.0424032\,X_{t-13} - 0.301196\,X_{t-14} + 0.7110\,X_{t-24} - 0.938562\,X_{t-25} - 0.271494\,X_{t-26} + 0.560\,X_{t-36} - 0.738732\,X_{t-37} - 0.213366\,X_{t-38} + \varepsilon_t \]

El estudio sobre la identificación de modelos SARIMA para la serie de diabetes mellitus sin aplicar diferenciación revela que el modelo SARIMA(0,0,1)(2,1,0)[12] con drift es el más adecuado según el mevor valor AIC(788.8802). El modelo seleccionado confirma la fuerte estacionarieda de la serie al incluir un componente estacional (2,1,0)[12]. La diferenciación estacional (D=1) es fundamental para la eliminación la estacionariedad repetitiva anual. Además, el modelo el modelo incluye un componente autorregresivo estacional de orden 2 (SAR1 y SAR2). En sus componentes no estacionales, el modelo es un ARIMA(0,0,1), es decir, un componente de medias móviles de orden 1 (MA1).

Modelo SARIMA para diabetes mellitus diferenciada

## Series: diabetes_ts 
## ARIMA(2,1,0)(2,1,0)[12] 
## 
## Coefficients:
##           ar1      ar2     sar1     sar2
##       -0.3212  -0.3824  -0.7891  -0.7110
## s.e.   0.1210   0.1219   0.1021   0.0883
## 
## sigma^2 = 22569:  log likelihood = -387.43
## AIC=784.86   AICc=785.99   BIC=795.25

\[ \begin{aligned} X_t &= 1.3212\,X_{t-1} + 0.3824\,X_{t-2} + 0.7891\,X_{t-12} - 1.0424032\,X_{t-13} - 0.301196\,X_{t-14} \\ &\quad + 0.7110\,X_{t-24} - 0.938562\,X_{t-25} - 0.271494\,X_{t-26} + 0.560\,X_{t-36} - 0.738732\,X_{t-37} - 0.213366\,X_{t-38} + \varepsilon_t \end{aligned} \]

la investigación sobre la identificación de modelos SARIMA para la serie de diabetes mellitus con una diferencia aplicada establece el modelo SARIMA(2,1,0)(2,1,0)[12] como el modelo más adecuado, al registrar la cifra más baja de AIC (784.8622), lo que indica el mejor equilibrio. Este modelo válida la necesidad de una diferenciación (I=1) para convertirse en estacionaria la serie. La estructura no estacional utiliza un componente autorregresivo de orden 2 (AR2) y crucialmente, un componente estacional similar (2,1,0)[12] que aplica una diferenciación estacional (D=1) y un autorregresivo estacional de orden 2 (SAR1 y SAR2).

Un tercer modelo SARIMA para verificar de los tres modelos candidatos cuál es el mejor.

diabetessarima=auto.arima(diabetes_ts)
diabetessarima
## Series: diabetes_ts 
## ARIMA(0,0,1)(2,1,0)[12] with drift 
## 
## Coefficients:
##          ma1     sar1     sar2    drift
##       0.4934  -0.8053  -0.6791  15.4181
## s.e.  0.1148   0.0957   0.0942   1.1005
## 
## sigma^2 = 20104:  log likelihood = -389.44
## AIC=788.89   AICc=790   BIC=799.36

Mediante operadores

\[ (1 - B^{12})(1 + 0.8053 B^{12} + 0.6791 B^{24})X_t = (1 + 0.4934 B)\,\varepsilon_t + 15.4181 \]

Reemplazando

\[ X_t - X_{t-12} + 0.8053 (X_t - X_{t-12}) + 0.6791 (X_{t-12} - X_{t-24}) = \varepsilon_t + 0.4934 \varepsilon_{t-1} + 15.4181 \]

\[ X_t = (1 + 0.8053)X_{t-12} - 0.8053 X_{t-24} + 0.6791 X_{t-12} - 0.6791 X_{t-24} + \varepsilon_t + 0.4934 \varepsilon_{t-1} + 15.4181 \]

\[ X_t = X_{t-12} + 1.4844 X_{t-12} - 1.4844 X_{t-24} + \varepsilon_t + 0.4934 \varepsilon_{t-1} + 15.4181 \]

El estudio del tercer modelo candidato SARIMA(0,0,1)(2,1,0)[12] con una tendencia constante para la serie diabetes_ts muestra que no es necesaria la diferenciación habitual, lo que indica que existe estabilidad en la tendencia a corto plazo. Por otro lado, la diferenciación estacional (D=1) refleja correctamente la estacionariedad de cada año. Este modelo incluye un elemento de media móvil (MA1) junto con un autorregresivo estacional de orden 2(SAR1 Y SAR2)

Ahora se porcede a examinar los residuos porque se presenta como una forma metódica de comprobación importante.

Análisis de los residuos

Análisis de los residuos del modelo ARIMA(4,1,1)

Gráficos de los residuos

El gráfico de los residuos del modelo ARIMA(4,1,1) presenta variaciones en torno a cero, lo que indica que no hay una estructura definida que necesite ser modelada. No obstante, se pueden notar ciertos picos marcados tanto positivos como negativos, especialmente en los años 2015 y 2018, lo que podría apuntar a la existencia de sucesos externos.

La observación los gráficos que los residuos no exhiben patrones definidos y que la mayoría de sus autocorrelaciones (FAC Y FACP) caen dentro de las bandas de confianza sugiere que el modelo ARIMA(4,1,1) ha capturado exitosamente la estructura temporal clave de la serie de muertes por diabetes (2014-2019). Este resultado indica una adecuada modelización de la dinámica de la serie. No obstante, Q-Q Plot muestra una clara desviación de la normalidad de los errores, particularmente en los extremos, donde los puntos se separan de la línea teórica.

Análisis de los residuos del modelo los modelos SARIMA

Análisis de los residuos del modelo SARIMA(2,1,0)(2,1,0)[12]

Gráficos de los residuos

El gráfico que representa la serie temporal de los residuos del modelo SARIMA(2,1,0)(2,1,0)[12] exhibe la variabilidad que no se explica en los fallecimientos por diabetes mellitus luego de implementar el modelo. Se nota que la serie parece estar centrada cerca de cero, lo cual es algo positivo. Los residuos varían de manera irregular a lo largo del tiempoe. Sin embargo, se pueden observar valores atípicos o picos significativos tanto positivos como negativos, sobre todo en los años 2016, 2018 y 2019.

El análisis de residuos del modelo SARIMA(2,1,0)(2,1,0)[12] sugiere un ajuste generalmente bueno a la serie de muertes por diabetes, ya que la Autocorrelación (FAC) y la Autocorrelación Parcial (FACP) muestran que ningún coeficiente supera las bandas de confianza. Sin embargo, el Q-Q Plot indica una desviación de la normalidad, con puntos en las colas inferior y superior que se apartan significativamente de la línea de referencia.

Análisis de los residuos del modelo SARIMA(0,0,1)(2,1,0)[12]

Gráficos de los residuos

El gráfico de la serie temporal de los residuos del modelo SARIMA(0,0,1)(2,1,0)[12] para las defunciones por diabetes mellitus exhibe una serie de residuos que oscila en torno a cero, que es la situación óptima para un ajuste adecuado. La serie de residuos no muestra tendencias, estacionalidad ni patrones claramente definidos, lo que sugiere que el modelo ha logrado captar eficazmente gran parte de la estructura dependiente de la serie original.

El análisis de los residuos del modelo SARIMA(0,0,1)(2,1,0)[12] relacionado con las muertes por diabetes señala que, en términos de autocorrelación, el modelo es adecua: tanto la FAC como la FACP indican que todos los coeficientes de rezago se encuentran dentro de las banderas de confianza. No obstante, el gráfico Q-Q plot indica una violación evidente de la hipótesis de normalidad, ya que los puntos en los extremos superior e inferior se apartan de la línea diagonal.

Análisis de los estadísticos

Comparación de modelos ARIMA para diabetes
Modelo AIC BIC KPSS_p LjungBox_p Normalidad_p
ARIMA(4,1,1) 1065.3984 1078.9745 0.08763 0.00114 0.16690
ARIMA(2,1,0)(2,1,0)[12] 784.8622 795.2499 0.10000 0.57243 0.00205
ARIMA(0,0,1)(2,1,0)[12] con drift 788.8862 799.3579 0.10000 0.14249 0.00319

El análisis comparativo confirma que el modelo SARIMA(2,1,0)(2,1,0)[12] es la mejor opción para la serie de muertes por diabetes, ya que presenta el menor AIC y BIC mejor parsimonia y sus residuos no estan correlacionados mediante el test de Ljung-Box tiene el p-valor más alto, \(0.57243\) , indicando que ha capturado completamente las estructuras temporal y estacional. En contraste, el ARIMA(4,1,1) es el único que falla la prueba Ljung-Box. Aunque los tres modelos pasan la prueba de estacionariedad (KPSS) y el ARIMA(4,1,1) no falla la prueba de normalidad de los residuos, el SARIMA(2,1,0)(2,1,0)[12] es el más adecuado para la precisión al tener el mejor rendimiento en las métricas de ajuste y adecuación.

Previsiones

Una vez identificado y validado el modelo ARIMA y SARIMA óptimo para la serie, se genera la proyección de previsiones, que constituye uno de los objetivos principales de este estudio.

Previsión serie diabetes con ARIMA(4,1,1)

La previsión elaborada con el modelo ARIMA(4,1,1) para la mortalidad por diabetes mellitus no logra reproducir los patrones de estacionariedad características de la serie original, es decir, sus picos y decaimientos. La proyección para el periodo 2020-2022 muestra una caída abrupta en el número de muertes y ondulamientos, lo que indica qye un ARIMA no resulta apropíado para obtener estimaciones precisas. Además, el intervalo de confianza es excesivamente amplio y se expande con rápidez, reflejando un elevado nivel en la previsión.

Previsión serie diabetes mellitus SARIMA(2,1,0)(2,1,0)[12]

El modelo SARIMA(2,1,1)(2,1,0)[12] ofrece una previsión mucho más adecuada para la mortalidad por diabetes mellitus. La proyección reitera correctamente la marcada estacionariedad de la serie; reflejando los picos anuales claros y precisos durante los 3 años de previsión. También de incluir la diferenciación (d=1) para mantener la estacionariedad, esta estructura del modelo permite que el intervalo de confianza acompañe el comportamiento de los datos, como resultado se obtiene una previsión precisa y valiosa.

Previsión serie diabetes mellitus SARIMA(0,0,1)(2,1,0)[12] con drift

El gráfico de previsión confirma que el modelo SARIMA(0,0,1)(2,1,0)[12] con drift captura exitosamente la dinámica de las muertes por diabetes (2014-2019), proyectando una continuación de la marcada estacionalidad anual picos y valles recurrentes con una ligera tendencia ascendente en el nivel general de muertes. La previsión sigue de cerca el patrón histórico hasta 2022, pero los intervalos de confianza se ensanchan progresivamente, reflejando el aumento natural de la incertidumbre a medida que se extiende la previsión.

Problema serie diabetes mellitus

  • La serie diferenciada de muertes por diabetes mellitus muestra caídas bruscas e insuales en los años 2015 y 2018, que rompe eñ patrón general de la variación mensual. Se desconoce si estos descensos se deben a cambios reales en la mortalidad, por lo que es necesario analizar su orígen para una debidad interpretación adecuada.

Posible solución

La presencia de descensos bruscos e insuales de la serie diferenciada pueden deberse a varios factores que no necesariamente reflejan una disminución real de la mortalidad. Una explicación documentada es la variabilidad en el registro de causas de muerte. Según el Nacional Center for Health Statics (NCHS) de los Estados Unidos, los certificados de defunción presentan una heterogeneidad considerable en cómo se repórtan las causas. Especialmente en enfermedades crónicas coma la diabetes, está problemática es descrita por la NCHS (Kenneth D. et al)

En un análiss realizado por Stokes y Preston (2017), demotraron que las muertes atributales a diabetes están subestimadas debido a la forma en que se codifican las causas múltiples de muerte. La literatura existente subraya, además, que los cambios en el uso y el acceso simple a los servicios de salud pueden causar variaciones momentáneas en las tasas de mortalidad observadas. Asimismo, investigaciones como la de Gregg E. et al. (2014), publicada en The Lancet, muestran una disminución en las complicaciones diabéticas agudas debido a avances en el manejo de la glucosa y la atención sanitaria.

En general, las investigaciones actuales indican que las disminuciones repentinas en la serie diferenciada de fallecimientos por diabetes deben ser analizadas con precaución ya que no siempre el registro por enfermedades y el fallecimiento por estas no es lo más precavido pueden sobreestimar los números para el análisis de estudios.

Segunda base de datos

Descripción de la base de datos

La base de datos Accidentes_ofidicos, obtenida del Portal Sivigila, constituye una integración de múltiples registros de accidentes ofídicos. Si bien las fuentes originales contaban con 82.875 observaciones y 75 variables cada una de las bases de datos , se estructuró una base de datos consolidada enfocada en cuatro variables esenciales: sexo, mes, año, y edad. Estos registros corresponden a casos reportados de accidentes ofídicos ocurridos en Colombia, cubriendo el período de tiempo que va desde el año 2007 hasta enero del 2025, pero en el consolidado hasta diciembre del 2024 por presencia de pocos reportes en enero del 2025.

Análisis Descriptivo

Estadísticas Descriptivas

Primero, se lleva a cabo un análisis descriptivo para delinear de manera inicial la estructura, la tendencia media y la variabilidad de las series analizadas. Esta fase es esencial porque ayuda a detectar características fundamentales (como la simetría o la asimetría en la distribución, la existencia de variabilidad o la presencia de picos/modas), lo que resulta vital, ya que influye en las decisiones metodológicas y el tipo de análisis inferencial que se podrá realizar después.

Análisis descriptivo de accidentes ofídicos por género (2007–2024)
Variable Observaciones Media Mediana Desviación Mínimo Máximo Asimetría Curtosis
accidentes_F 215 109.2 110 27.7 2 188 -0.09 0.82
accidentes_M 215 276.2 276 70.1 5 450 -0.30 0.54

En relación a la variable accidentes_F, la asimetría negativa de -0. 09 sugiere que la mayoría de los intervalos tienen cifras de accidentes que son moderadas o ligeramente superiores al promedio, con una cola izquierda bastante corta que indica que los periodos con valores excepcionalmente bajos son poco frecuentes. Este número es muy cercano a cero, lo que significa que la distribución es mayormente simétrica. Un valor de curtosis de 0. 82, que es positivo, muestra que la distribución es ligeramente leptocúrtica, con un pico que es un poco más acentuado que el de la distribución normal y una concentración de datos alrededor de la media. La pequeña diferencia entre la media (109. 2) y la mediana (110) respalda la idea de que no hay valores atípicos extremos que alteren las medidas de tendencia central y que los datos están agrupados entre estos valores, lo que se verifica con la baja desviación estándar (27. 7).

Por otro lado, la variable accidentes_M, que tiene una tasa promedio mucho más alta, presenta una asimetría negativa de -0. 30, lo que indica una distribución que también es prácticamente simétrica, pero con un sesgo negativo un poco más acentuado que en la serie femenina. Esta simetría muestra que las observaciones están distribuidas de manera estable alrededor de la media (276. 2), y la cercanía con la mediana (276) refuerza la idea de que no hay valores atípicos extremos que afecten las medidas de tendencia central. La curtosis de 0. 54 sugiere que los datos provienen de una distribución ligeramente leptocúrtica, al igual que en el caso femenino. Sin embargo, lo más destacado en comparación con la serie femenina es su mayor desviación estándar (70. 1). Esta mayor variabilidad, que supera considerablemente la observada en la serie femenina, indica que hay fluctuaciones más marcadas en las cifras de accidentes a lo largo del tiempo.

Con base a estos indicadores se justifica proceder con gráficos representativos y de gran impacto para el estudio.

Serie accidente ofídicos a personas de sexo masculino

Histograma para accidentes ofídicos masculino

El histograma ilustra cómo se distribuyen las frecuencias de los casos mensuales de mordeduras de serpientes en hombres durante el periodo de análisis 2007-2024. Los accidentes por mes tienen un rango que va aproximadamente de valores cercanos a 0 hasta 450 casos. La densidad de la distribución indica una notable concentración de los datos en el medio, especialmente alrededor de los 250 y 300 incidentes al mes, lo que coincide con los valores de la media y la mediana calculados aproximadamente 276 casos. La distribución muestra una simetría, aunque presenta un leve sesgo hacia la izquierda la cola se extiende ligeramente más hacia los valores bajos, entre 100 y 200, lo que concuerda con el valor de asimetría negativa de -0. 30 encontrado en el análisis descriptivo. La mayor concentración de observaciones se sitúa entre 250 y 300, mientras que los casos que superan los 400 y los que están por debajo de 100 reflejan meses con aumentos y disminuciones notables en los incidentes, respectivamente.

A continuación, se pretende analizar qué tipo de distribución teórica se adecúa de manera más efectiva al comportamiento real de la serie de accidentes por mordeduras de serpiente en hombres, empleando los criterios AIC y BIC para fundamentar la elección de la distribución más adecuada.

Análisis de distribuciones

Distribuciones para accidentes ofídicos masculinos

Comparación de ajuste de distribuciones - accidentes Masculinos
Distribución AIC BIC
Normal 2440.64 2447.38
Log-Normal 2596.57 2603.31
Gamma 2507.57 2514.31
Weibull 2451.93 2458.67

Se realizó una comparación del ajuste de diversas distribuciones teóricas a la serie de accidentes ofídicos masculinos utilizando los criterios de información AIC y BIC, donde el mejor ajuste corresponde al valor más bajo. La Distribución Normal resultó ser la que mejor se ajusta a los datos empíricos, al presentar los valores más bajos tanto en el AIC (2440.64) como en el BIC (2447.38). Las distribuciones Log-Normal, Gamma y Weibull mostraron valores significativamente superiores en ambos criterios, lo que indica que no son modelos adecuados.

Histograma para accidentes ofídicos masculinos con distribuciones

El análisis gráfico del ajuste de distribuciones a los accidentes ofídicos masculinos confirma la idoneidad de la Distribución Normal (línea roja), ya que su curva de densidad se alinea visualmente de manera óptima con el pico central y la forma general del histograma empírico, respaldando la selección basada en los criterios AIC y BIC. Aunque la Distribución Weibull (amarillo) también presenta un ajuste cercano, las curvas de las Distribuciones Log-Normal (verde) y Gamma (rosado) se desvían de manera notable, fallando en capturar la altura y la posición del pico de la distribución real.

Antes de analizar en detalle el comportamiento de las series de tiempo y las dinámicas estacionales, es crucial llevar a cabo una revisión visual de cómo se distribuyen los datos. En este sentido, los diagramas de caja juegan un papel significativo, ya que son una herramienta exploratoria clave para reconocer los patrones de dispersión, variabilidad y para detectar valores extremos.

Boxplot para accidentes ofídicos masculinos

El diagrama de caja de los accidentes ofídicos masculinos muestra que la mediana se sitúa en los 276 casos, indicando que la mitad de los meses registraron menos de esta cantidad. El Rango Intercuartílico, representado por la caja, es relativamente estrecho, concentrando el 50% de los datos entre el primer cuartil y el tercer cuartil , aproximadamente en el rango de 240 a 320 casos, lo que confirma la baja dispersión de la serie. Las colas son cortas y simétricas, reforzando la simetría de la distribución previamente observada. Sin embargo, se identifican dos valores atípicos en los extremos inferiores cercanos a 0 y 100 casos, que representan meses con una incidencia de accidentes excepcionalmente baja.

Tras el análisis descriptivo inicial y la identificación de patrones generales se procede a examinar detalladamente la variabilidad mediante gráficos de cajas y bigotes organizados por año y mes.

Análisis de la variabilidad anual mediante boxplots

Boxplots anual para accidentes masculinos

El gráfico indica que los accidentes ofídicos en hombres muestran una tendencia general creciente desde 2006 hasta 2024. A pesar de la variabilidad anual, se aprecia un aumento gradual en la mediana de casos, destacándose incrementos significativos en torno a 2010, 2016 y sobre todo después de 2020. De igual manera, ciertos años exhiben outliers, lo que señala sucesos con un mayor conteo de accidentes en comparación con la distribución habitual del periodo. Este patrón indica un aumento constante en la incidencia de accidentes en hombres con el paso del tiempo.

Análisis de la variabilidad mensual mediante boxplots

Boxplots para la serie accidentes ofídicos masculinos por mes

El boxplot mensual de incidentes de mordeduras de serpientes en hombres muestra una temporada claramente definida en la frecuencia de casos. Se puede notar un incremento evidente donde los números de accidentes son generalmente más elevados en mayo, junio, julio y noviembre, con la mediana en estos meses situándose en torno a 350 casos o un poco más. Por otro lado, se observa una notable caída en los casos durante diciembre, enero, febrero y marzo. Mayo destaca con una mediana que acerca a los 375 incidentes y un rango intercuartil que denota una considerable variabilidad, logrando los registros más altos en toda la serie. También se reconocen datos atípicos que indican meses con tasas de incidentes inusualmente bajas en diciembre, febrero, abril y septiembre.

Ahora se analiza la conexión entre las dos variables para determinar si presentan patrones similares que sean relevantes. Esto facilitaría decidir si se pueden investigar de manera conjunta.

Scatterplot

El gráfico de dispersión muestra una fuerte correlación lineal positiva entre el número de accidentes ofídicos reportados mensualmente en la población femenina eje X y la población masculina eje Y. La nube de puntos se agrupa estrechamente alrededor de la línea de regresión, lo que indica que a medida que aumenta el número de accidentes en mujeres en un mes determinado, también aumenta, de manera predecible, el número de accidentes en hombres.

Para comprender de una mejor manera la relación entre las dos variables de estudio, a continuación se muestra el valor de la correlación.

Correlación

## [1] 0.8362383

Este valor indica una correlación lineal positiva muy fuerte entre los accidentes ofídicos reportados mensualmente en hombres y mujeres. El valor es cercano a +1, lo que significa que la relación entre ambas variables es altamente directa y consistente.

Después de definir la distribución y el comportamiento estadístico de la variable en el análisis descriptivo, se avanza hacia el estudio del análisis de series temporales.

Series de tiempo

Serie de tiempo accidentes ofídicos masculinos

La serie temporal de incidentes ofídicos en hombres entre 2007 y 2024 en Colombia revela un evidente aumento en la cantidad de casos durante este lapso, subiendo de un promedio mensual de sobre 200 incidentes en los años iniciales a cerca de 350-400 en los más recientes. Junto a este aumento, se puede notar una notable estacionariedad en la serie, que se manifiesta a través de oscilaciones regulares que indican una gran dependencia de factores periódicos.

Mapa de calor

Los mapas de calor en datos temporales son una técnica de visualización que utiliza colores para mostrar la intensidad de la información en una rejilla temporal, resultando muy eficaces para detectar patrones estacionales y cambios a través del tiempo.

Mapa de calor accidentes ofídicos masculino

El mapa de calor muestra una clara variabilidad estacional en la frecuencia de accidentes por mordeduras de serpiente en hombres y valida el aumento que se ha observado en la serie de tiempo. La clasificación de colores indica que los picos de incidentes colores rojos oscuros, más de 400 casos se agrupan principalmente en los meses de mayo y junio durante casi todos los años analizados. Esto sugiere que el periodo de mayor peligro está firmemente establecido en esos meses. Por otro lado, los meses de diciembre, enero y febrero muestran la menor cantidad de casos colores azules, menos de 100 casos. Además, se evidencia un aumento en la intensidad de los colores con el paso del tiempo, particularmente a partir de 2017, donde el color rojo se vuelve más predominante.

Descomposición de la serie

La descomposición de una serie de tiempo es un proceso estadístico fundamental diseñado para separar una serie observada en sus componentes básicos: la tendencia, la estacionariedad y los residuos. Este método es crucial ya que ayuda a analizar los patrones subyacentes, permitiendo entender mejor los datos, como la tendencia y los ciclos estacionariedad.

Descomposición aditiva – Serie accidentes ofídicos masculino

Descomposición multiplicativa – Serie accidentes ofídicos masculino

La descomposición aditiva indica que la tendencia experimenta un aumento a lo largo del tiempo, con una leve caída alrededor del año 2020. La estacionalidad mantiene una amplitud bastante estable a lo largo del periodo, con picos y valles que aparecen de manera regular y que no cambian considerablemente. Los residuos son relativamente pequeños, aunque presentan picos marcados, pero la influencia de la estacionariedad es notablemente mayor que la de los residuos.

La descomposición multiplicativa muestra una tendencia parecida a la del modelo aditivo, manifestando un crecimiento general. No obstante, en este caso, el componente estacional actúa como un multiplicador, donde los valores cercanos a 1 revelan un patrón repetitivo. Debido a que la amplitud de los ciclos en la serie observada incrementa ligeramente a medida que la tendencia se fortalece, el modelo multiplicativo suele ser considerado como el ajuste teórico más adecuado para series con estacionariedad en aumento.

Estacionariedad

KPSS-test

Una vez identificados y descompuestos los componentes que estructuran las series temporales, se procede a evaluar su estacionariedad mediante el test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS)

Estacionariedad para accidentes ofídicos masculinos

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_M
## KPSS Level = 3.4053, Truncation lag parameter = 4, p-value = 0.01

El análisis de estacionariedad para la serie temporal de accidentes ofídicos masculinos, utilizando el Test de KPSS , indica que la serie no es estacionaria en tendenncia.Este resultado se obtiene dado que el p-valor de la prueba es de 0.01, un valor menor que el nivel de significancia \(\alpha = 0.05\). Por lo tanto, se rechaza la hipótesis nula que el proceso es estacionario en tendencia. Para corroborar la necesidad de transformación y determinar el orden de diferenciación requerido para lograr la estacionariedad, se suele utilizar la función ndiffs.

## La serie necesita diferenciación.
## Número de diferencias sugeridas: 1

Para corregir esta no estacionariedad y prepara la serie para el modelado, la función ndiffs sugiere que se requiere una diferencia.

Gráfica de la accidentes ofídicos masculinos diferenciada

El gráfico de la serie temporal que muestra accidentes ofídicos masculinos diferenciado representa la variación mensual en la cantidad de casos tras llevar a cabo una diferenciación de primer orden. Se nota que la serie resultante gira en torno a cero, presentando una media estable y una varianza más equilibrada, lo que indica de manera visual que ha alcanzado la estacionariedad en términos de media. La serie que se ha diferenciado conserva la marcada estacionalidad de la serie original, evidenciada por un patrón de fluctuaciones periódicas. Sin embargo, ahora se aprecian picos que rondan los 200 y descensos cercanos o inferiores a -200, lo que refleja la magnitud del incremento o la reducción de un mes a otro. Este elemento es algo que debe ser eliminado mediante una diferenciación estacional. Una vez que se confirma la estacionariedad de las series a través de esta diferenciación y mediante la prueba de KPSS, se pasa a determinar la estructura de dependencia de las series usando las funciones de autocorrelación (FAC) y autocorrelación parcial (FACP).

Función de autocorrelación y función de autocorrelación parcial(FAC, FACP)

FAC Y FACP serie accidentes ofídicos masculinos

En la serie original de accidentes ofídicos masculinos, la Función de Autocorrelación (FAC) muestra valores positivos y significativos que disminuyen de manera lenta a lo largo de varios rezagos. Este patrón sugiere una dependencia temporal y evidencia un comportamiento no estacionario debido a la presencia de una tendencia, donde los valores pasados influyen fuertemente con los futuros. La Función de Autocorrelación Parcial (FACP) presenta un pico positivo muy significativo después del primer rezago antes de caer abruptamente. Las barras que superan repetidamente las bandas de confianza en los rezagos 12 y 24.

FAC Y FACP serie accidentes ofídicos masculinos diferenciada

Tras aplicar la primera diferencia, la Función de Autocorrelación (FAC) de la serie transformada muestra una disminución marcada en la autocorrelación, concentrándose los valores significativos únicamente en los rezagos estacionales (12 y 24). El resto de las autocorrelaciones caen dentro de las bandas de confianza, lo que indica que la serie se aproxima a un comportamiento estacionario en media al haberse eliminado la tendencia. La Función de Autocorrelación Parcial (FACP) de la serie evidencia un pico alto y significativo en el rezago 12. Este patrón sugiere que si es necesario una diferenciación.

Identificación de los modelos

Una vez analizados los patrones de autocorrelación y confirmada la estacionariedad de las series, se procede a la etapa de identificación y formalización de los modelos AR, MA, ARMA, ARIMA y SARIMA.

Modelo para la serie accidentes ofídicos masculino

## Series: ts_M 
## ARIMA(5,0,0) with non-zero mean 
## 
## Coefficients:
##          ar1     ar2      ar3     ar4     ar5      mean
##       0.5129  0.0930  -0.0576  0.1786  0.1847  270.6405
## s.e.  0.0675  0.0751   0.0757  0.0761  0.0722   28.3312
## 
## sigma^2 = 1673:  log likelihood = -1095.63
## AIC=2205.26   AICc=2205.8   BIC=2228.82

\[ X_t = 0.5129\,X_{t-1} + 0.0930\,X_{t-2} - 0.0576\,X_{t-3} + 0.1786\,X_{t-4} + 0.1847\,X_{t-5} + 270.6405 + \varepsilon_t \]

El modelo candidato no estacional seleccionado automáticamente, ARIMA(5, 0, 0), presenta un componente autorregresivo de orden 5 (AR5). Sin embargo, el modelo se ajustó con un orden de diferenciación d=0 , lo cual es metodológicamente incorrecto ya que los análisis previos (KPSS y FAC) demostraron que la serie no era estacionaria y requería al menos una diferencia no estacional d=1.

Modelo para la serie accidentes ofídicos masculino diferenciada

## Series: ts_M 
## ARIMA(2,1,2) 
## 
## Coefficients:
##          ar1      ar2      ma1     ma2
##       1.1997  -0.4684  -1.7580  0.8436
## s.e.  0.1102   0.1075   0.0747  0.0899
## 
## sigma^2 = 1548:  log likelihood = -1083.21
## AIC=2176.42   AICc=2176.71   BIC=2193.23

\[ X_t = 2.1997\,X_{t-1} - 1.6671\,X_{t-2} + 0.4684\,X_{t-3} - 1.7580\,\varepsilon_{t-1} + 0.8436\,\varepsilon_{t-2} + \varepsilon_t \]

El proceso de selección mediante auto.arima con la condición de diferenciación de orden uno d=1 establece el modelo ARIMA(2, 1, 2). Este modelo es seleccionado por registrar un valor AIC de 2176.42 y BIC de 2193.23, indicando el mejor balance entre la precisión del ajuste y la complejidad del modelo dentro de los modelos no estacionales probados. El modelo tiene un componente autorregresivo de orden dos (AR2) y un componente de medias móviles de orden dos (MA2), con una orden de diferenciación I(1).

Modelos SARIMA

Modelo SARIMA para la serie accidentes ofídicos masculinos

## Series: ts_M 
## ARIMA(1,0,1)(2,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1      ma1    sar1    sar2      mean
##       0.9627  -0.7045  0.3395  0.3022  259.8942
## s.e.  0.0226   0.0614  0.0757  0.0854   44.7067
## 
## sigma^2 = 1325:  log likelihood = -1074.04
## AIC=2160.09   AICc=2160.49   BIC=2180.28

\[ (1 - 0.9627B)(1 - 0.3395B^{12} - 0.3022B^{24})X_t = (1 - 0.7045B)\,\varepsilon_t + 259.8942 \]

\[ \begin{aligned} X_t &= 0.9627\,X_{t-1} - 0.3267\,X_{t-12} - 0.3253\,X_{t-13} + 0.1044\,X_{t-14} \\ &\quad + 0.3425\,X_{t-24} + 0.3257\,X_{t-25} - 0.1040\,X_{t-26} \\ &\quad + \varepsilon_t - 0.7045\,\varepsilon_{t-1} \end{aligned} \]

El modelo SARIMA(1, 0, 1)(2, 0, 0)[12] seleccionado automáticamente registró el menor valor AIC (2160.09) y BIC (2180.28), indicando el mejor ajuste y parsimonia dentro de los modelos explorados. Este modelo presenta una fuerte dependencia no estacional de orden AR(1) y una dependencia estacional autorregresiva de orden 1 y 2 (SAR1 y SAR2), lo cual valida la estructura de la serie temporal que exhibe un fuerte vínculo con el mes anterior y con los meses 12 y 24 meses atrás. No obstante no es un buen ajuste porque la serie requiere una diferenciación.

Modelo SARIMA para la serie accidentes ofídicos masculinos diferenciada

## Series: ts_M 
## ARIMA(0,1,2)(2,0,0)[12] 
## 
## Coefficients:
##           ma1      ma2    sar1    sar2
##       -0.6490  -0.1148  0.3087  0.2766
## s.e.   0.0695   0.0682  0.0771  0.0877
## 
## sigma^2 = 1327:  log likelihood = -1068.54
## AIC=2147.08   AICc=2147.37   BIC=2163.88

\[ (1 - B)\,X_t = (1 + \theta_1 B + \theta_2 B^2)\, (1 - \Phi_1 B^{12} - \Phi_2 B^{24})\,\varepsilon_t \]

\[ (1 - B)\,X_t = (1 - 0.6490\,B - 0.1148\,B^2)\, (1 - 0.3087\,B^{12} - 0.2766\,B^{24})\,\varepsilon_t . \]

\[ \begin{aligned} X_t &= X_{t-1} + \varepsilon_t - 0.6490\,\varepsilon_{t-1} - 0.1148\,\varepsilon_{t-2} \\ &\quad - 0.3087\,\varepsilon_{t-12} + 0.2005\,\varepsilon_{t-13} + 0.0354\,\varepsilon_{t-14} \\ &\quad - 0.2766\,\varepsilon_{t-24} + 0.1795\,\varepsilon_{t-25} + 0.0318\,\varepsilon_{t-26}. \end{aligned} \]

El proceso de selección automática, forzando la búsqueda de un modelo SARIMA con una diferenciación no estacional de orden uno d=1 aplicada a la serie, establece el modelo SARIMA(0, 1, 2)(2, 0, 0)[12]. Este modelo registra un valor AIC de 2147.08 y BIC de 2163.88, que es el más bajo de todos los modelos explorados, confirmando que este es el modelo más parsimonioso y estadísticamente superior para los accidentes ofídicos masculinos. El modelo final es puramente de Media Móvil No Estacional (MA2) y Autorregresivo Estacional de orden 2 (SAR1 y SAR2).

Segundo modelo candidato SARIMA para la serie accidentes ofídicos masculinos diferenciada

## Series: ts_M 
## ARIMA(5,1,0)(2,0,0)[12] 
## 
## Coefficients:
##           ar1      ar2      ar3      ar4      ar5    sar1    sar2
##       -0.6188  -0.5166  -0.4447  -0.2262  -0.2177  0.3078  0.2982
## s.e.   0.0696   0.0800   0.0823   0.0850   0.0754  0.0795  0.0855
## 
## sigma^2 = 1328:  log likelihood = -1067.4
## AIC=2150.8   AICc=2151.51   BIC=2177.69

\[ \nabla X_t \;=\; X_t - X_{t-1} \]

Modelo en operadores \[ \big(1 - \phi_1 B - \phi_2 B^2 - \phi_3 B^3 - \phi_4 B^4 - \phi_5 B^5\big) \big(1 - \Phi_1 B^{12} - \Phi_2 B^{24}\big)(1-B)X_t = \varepsilon_t \]

\[ \big(1 + 0.6188B + 0.5166B^2 + 0.4447B^3 + 0.2262B^4 + 0.2177B^5\big) \big(1 - 0.3078B^{12} - 0.2982B^{24}\big)\,\nabla X_t \;=\; \varepsilon_t \]

\[ \big(1 + 0.6188B + 0.5166B^2 + 0.4447B^3 + 0.2262B^4 + 0.2177B^5\big) \big(1 - 0.3078B^{12} - 0.2982B^{24}\big)(1-B)\,X_t \;=\; \varepsilon_t \]

\[ \begin{aligned} X_t &= 0.3812\,X_{t-1} + 0.1022\,X_{t-2} + 0.0719\,X_{t-3} + 0.2185\,X_{t-4} + 0.0085\,X_{t-5} + 0.2177\,X_{t-6} \\ &\quad + 0.3078\,X_{t-12} - 0.1173\,X_{t-13} - 0.0315\,X_{t-14} - 0.0221\,X_{t-15} - 0.0673\,X_{t-16} \\ &\quad - 0.0026\,X_{t-17} - 0.0670\,X_{t-18} + 0.2982\,X_{t-24} - 0.1137\,X_{t-25} - 0.0305\,X_{t-26} \\ &\quad - 0.0214\,X_{t-27} - 0.0652\,X_{t-28} - 0.0025\,X_{t-29} - 0.0649\,X_{t-30} + \varepsilon_t . \end{aligned} \]

El segundo modelo candidato explorado mediante la función auto.arima() con la diferenciación no estacional forzada d=1 es un SARIMA(5, 1, 0)(2, 0, 0)[12]. Este modelo presenta un valor de AIC de 2150.8 y BIC de 2177.69. Al comparar estos criterios con el modelo previamente identificado SARIMA(0, 1, 2)(2, 0, 0)[12] AIC 2147.08 y BIC 2163.88, se concluye que el modelo anterior es superior ya que presenta un AIC y BIC significativamente menores, aunque falta comparar los residuos.

Análisis de los residuos

El análisis de residuos es la etapa más importante y final en la construcción de un modelo de series de tiempo, como el SARIMA. Su objetivo principal es confirmar que el modelo seleccionado ha capturado completamente todas las dependencias (tendencia, estacionariedad y autocorrelación) presentes en la serie. A continuación se procederá con ello.

Análisis de los residuos del modelo ARIMA(2,1,2)

Gráficos de los residuos

El gráfico de los residuos del modelo ARIMA(2, 1, 2), muestra que la serie residual oscila de manera aleatoria alrededor de cero, con una media constante y sin patrones visibles. Esto indica que el modelo ha logrado capturar y eliminar la tendencia presente en la serie original. No obstante, se observan picos de gran magnitud en los residuos al inicio de la serie.

EL análisis del diagnóstico de los residuos para el modelo ARIMA(2, 1, 2). El gráfico de la serie de residuos indica que la varianza de los residuos no se mantiene constante (heterocedasticidad), mostrando picos de gran magnitud al principio del período, y las funciones FAC y FACP de los residuos todavía muestran un pico destacado en el rezago 12 en la FACP, lo que demuestra que la fuerte estacionalidad anual no fue asimilada por este modelo. El gráfico Q-Q sugiere que los residuos no siguen una distribución normal de manera perfecta en los extremos.

Análisis de los residuos del modelo SARIMA(0,1,2)(2, 0, 0)[12]

Gráficos de los residuos

El gráfico de los residuos del modelo SARIMA(1, 0, 1)(2, 0, 0)[12] muestra que la serie residual oscila de manera aleatoria alrededor de cero, con una varianza aparentemente más estable que en el modelo ARIMA, aunque todavía se observan picos de mayor magnitud al inicio de la serie antes de 2010.

El análisis de diagnóstico del modelo SARIMA(1, 0, 1)(2, 0, 0)[12] confirma su validez estadística para la serie de accidentes ofídicos masculinos. El gráfico de la serie residual muestra que los errores oscilan de forma aleatoria alrededor de cero, indicando que el modelo ha capturado con éxito las componentes de tendencia y estacionalidad. La FAC y FACP de los residuos no presentan ninguna correlación significativa. Finalmente, Q-Q Plot confirma que los residuos siguen una distribución aproximadamente normal.

Análisis de los residuos del modelo SARIMA(5,1 , 0)(2, 0, 0)[12]

Gráficos de los residuos

El gráfico de los residuos del modelo SARIMA(0, 1, 2)(2, 0, 0)[12] muestra que la serie residual oscila de manera aleatoria alrededor de cero a lo largo del tiempo, con una varianza visualmente más uniforme que en los modelos anteriores. Esto es un indicio de que el modelo capturó con éxito la tendencia y la estacionalidad presentes en la serie.

El gráfico de la serie residual muestra que los errores oscilan de forma aleatoria y centrada alrededor de cero, lo que indica que el modelo capturó con éxito la tendencia de la serie. La FAC y Q-Q Plot son satisfactorios, ya que la FAC muestra que las autocorrelaciones caen en las bandas de confianza , y los residuos son aproximadamente normales. Sin embargo, la Función de Autocorrelación Parcial (FACP) presenta una barra significativa en el rezago 12, lo cual es un fallo de diagnóstico.

Análisis de los estadísticos

Comparación de modelos ARIMA candidatos
Modelo AIC BIC KPSS_p LjungBox_p Normalidad_p
ARIMA(2,1,2) 2176.422 2193.228 0.1 0.00215 0
ARIMA(0,1,2)(2,0,0)[12] 2147.075 2163.882 0.1 0.03402 0
ARIMA(5,1,0)(2,0,0)[12] 2150.802 2177.692 0.1 0.02032 0

El modelo SARIMA(0, 1, 2)(2, 0, 0)[12] es el mejor modelo candidato basado en los criterios de ajuste AIC y BIC, al registrar los valores más bajos AIC=2147.075,BIC=2163.882. El valor de KPSS de 0.1 para todos los modelos indica que la diferenciación aplicada ha sido exitosa en inducir la estacionariedad en media. Sin embargo, el p-valor de la prueba de Ljung-Box es menor a 0.05 para todos los modelos, siendo el SARIMA(0, 1, 2)(2, 0, 0)[12] el más cercano a 0.05 con un p-valor = 0.03402, lo cual implica que aún existe autocorrelación residual que debe ser corregida. Finalmente, el p-valor para la prueba de Normalidad de 0 para los tres modelos indica que los residuos no se distribuyen normalmente, lo cual es un fallo de supuesto clave en todos los modelos.

Previsiones

La previsión es el paso final y crucial en el análisis de series de tiempo, donde el objetivo es estimar los valores futuros de la variable de interés, en este caso, el número de accidentes ofídicos masculinos.

Previsión ARIMA(2,1,2) serie accidentes ofídicos masculinos

El gráfico muestra la previsión de los accidentes ofídicos masculinos mediante el modelo ARIMA(2, 1, 2). La línea de previsión se mantiene esencialmente plana en torno a los 340 casos, ignorando la estacionalidad previamente identificada. Los intervalos de confianza se amplían rápidamente a medida que avanza la previsión, lo cual indica la alta incertidumbre del modelo. Esta previsión no es correcta con un patrón tan marcado.

Previsión SARIMA(0, 1, 2)(2, 0, 0)[12] serie accidentes ofídicos masculinos

El gráfico de previsión generado por el modelo SARIMA(0, 1, 2)(2, 0, 0)[12] es mucho más preciso que el ARIMA anterior. La línea de previsión reproduce el patrón estacional identificado, con picos esperados en la incidencia de casos alrededor de mayo/junio de 2025 y un descenso posterior, reflejando correctamente el ciclo anual de los accidentes. Los intervalos de confianza se amplían significativamente a medida que la previsión se extiende.

Previsión SARIMA(5, 1, 0)(2, 0, 0)[12] serie accidentes ofídicos masculinos

El gráfico de previsión generado por el modelo SARIMA(5, 1, 0)(2, 0, 0)[12] es altamente estacional, reproduciendo los picos de alta incidencia de casos en los meses de mayo y junio de 2025 y los valles a inicios y finales de año. La línea de previsión se mantiene en la trayectoria ascendente de la serie, lo cual es coherente con la tendencia observada. Los intervalos de confianza son amplios, indicando una alta incertidumbre en esta previsión, lo cual es de esperar debido a la alta variabilidad de la serie.

El análisis confirmó que la serie presenta una tendencia ascendente y una fuerte estacionariedad anual, siendo el modelo SARIMA(0, 1, 2)(2, 0, 0)[12] el de mejor ajuste AIC=2147.08 para la previsión estacional, a pesar de las fallas en el diagnóstico de residuos, proyectando picos de alta incidencia en mayo y junio de 2025.

Planteamiento del problema

¿Cuáles son los factores que explican el aumento y las fluctuaciones en el número de accidentes ofídicos masculinos en Colombia entre 2015 y 2018?.

Un factor central para explicar los picos y las variaciones interanuales es la influencia de las variables climáticas, especialmente la precipitación. Estudios aplicados a Colombia demuestran que la lluvia incrementa significativamente la actividad de las serpientes y aumenta la exposición humana, sobre todo durante las faenas agrícolas. Esto mismo se confirma en el boletín del INS, donde el análisis de series históricas muestra que, en municipios como Turbo, Carmen de Bolívar o Leticia, la lluvia explica entre el 26 % y 40 % de la variación mensual de casos. Este patrón climático crea una estacionariedad pronunciada en regiones con temporadas lluviosas bien definidas, lo cual coincide con los picos que se observan típicamente en las series temporales nacionales. Sin embargo, la estacionariedad no es homogénea: el INS resalta casos como Tumaco, donde la relación es inversa y las lluvias tienden a disminuir los accidentes, mostrando que existen dinámicas locales particulares que atenúan o invierten el patrón nacional (Boletín Epidemiológico, 2018.). 

Además de los factores ambientales, los elementos ocupacionales desempeñan un papel central en el patrón masculino de la serie. Según análisis epidemiológicos nacionales, la mayor parte de los casos ocurre en hombres en edad laboral involucrados en actividades agrícolas, ganaderas o de extracción, sectores que concentran la mayor exposición al riesgo León-Núñez, L. J., Camero-Ramos, G., & Gutiérrez, J. M. (2023).

En lo que respecta a la estacionariedad, los trabajos existentes concuerdan en que Colombia exhibe claros patrones estacionales en diversas áreas, especialmente en aquellas con períodos de lluvias bien establecidos. En estos lugares, se observa un incremento en los casos durante los meses de lluvia, lo que se debe al aumento en la actividad de las serpientes y a la intensificación de las actividades agrícolas. por lo tanto todo esto conduce a los diversos hallazgos de las fluctuaciones que está entre el periodo 2015-2019.

Serie accidente ofídicos a personas de sexo femenino

Histograma para accidentes ofídicos femeninos

El histograma de accidentes por mordeduras de serpiente en mujeres mensualmente muestra que la dispersión de los casos se asemeja a una distribución normal, como se observa en la curva de densidad que se superpone. La mayor cantidad de casos registrados cada mes se sitúa cerca de la mediana, alrededor de 90 a 130 casos en total, con un punto máximo de densidad en torno a los 110 incidentes. Hay una cola larga en el extremo derecho de la distribución, lo que indica que hay algunos meses con una incidencia notablemente elevada, aunque la baja densidad en los extremos sugiere que es poco probable encontrar valores muy bajos menos de 50 o muy altos más de 175.

A continuación, se busca analizar cuál tipo de distribución teórica se ajusta de forma más precisa al comportamiento observado en la serie de accidentes por mordeduras de serpiente en personas, utilizando los criterios AIC y BIC para justificar la selección de la distribución más apropiada.

Análisis de distribuciones

Distribuciones para accidentes ofídicos femeninos

Comparación de ajuste de distribuciones - accidentes femeninos
Distribución AIC BIC
Normal 2017.72 2024.45
Log-Normal 2034.68 2041.41
Gamma 2023.64 2030.37
Weibull 2023.32 2030.06

El análisis del histograma de incidentes por mordeduras de serpiente en mujeres muestra que la distribución Normal es la que mejor se ajusta a los datos. Esto se confirma porque presenta los valores más bajos de AIC (2017.72) y BIC (2024.45), lo que indica un modelo más eficiente en comparación con las distribuciones Log-Normal, Gamma y Weibull.

Histograma para accidentes ofídicos femeninos con distribuciones

El gráfico que muestra las distribuciones ajustadas coloca las curvas de densidad de cuatro modelos encima del histograma de mujeres. La distribución Normal (curva azul) se adapta de la mejor manera a la forma en campana de los datos, abarcando la mayor parte del área de los picos centrales y ofreciendo una representación más precisa de la simetría de la distribución. Las otras distribuciones (Log-Normal, Gamma y Weibull) presentan una leve desviación del pico central y de la simetría.

Antes de profundizar en el comportamiento de las series temporales y las variaciones estacionales, es fundamental realizar un examen visual de la distribución de los datos. En este contexto, los gráficos de caja son muy importantes, ya que sirven como una herramienta esencial para identificar los patrones de dispersión, la variabilidad y para localizar valores atípicos.

Boxplot para accidentes ofídicos femeninos

El gráfico de cajas de accidentes de serpientes en mujeres revela que la mediana de los casos al mes está por encima de 100. La distribución central es bastante compacta y equilibrada, con la mitad de los casos agrupados entre 90 y 130. Existen algunos valores anómalos en el extremo superior, lo que sugiere que hay meses con una frecuencia de casos notablemente alta, excediendo los 160.

Tras el previo análisis de boxplot general, se procede a examinar la variabilidad temporal de la serie mediante boxplots organizado por año y mes . Estas aproximación metodológica permite desagregar el comportamiento general de los años y meses de la serie.

Análisis de la variabilidad anual mediante boxplots

Boxplots para la serie accidentes ofídicos femeninos por año

El gráfico indica que los accidentes ofídicos en mujeres presentan una tendencia moderadamente ascendente desde 2006 hasta 2024, a pesar de las variaciones a lo largo del tiempo. Entre 2006 y 2012 se nota un incremento gradual en la mediana de casos, seguido de un lapso de variabilidad entre 2013 y 2017, en el que los valores parecen estabilizarse. Desde 2018 se observa un nuevo aumento, con años recientes que muestran medianas más elevadas y mayor variabilidad, lo que sugiere variaciones anuales más significativas. En total, la conducta indica un incremento general en la tasa de accidentes entre mujeres

Análisis de la variabilidad mensual mediante boxplots

Boxplots para la serie accidentes ofídicos femeninos por mes

El gráfico de caja y bigotes mensual sobre accidentes de mordeduras de serpientes en mujeres muestra que la frecuencia mensual es reducida. La mayor cantidad de casos con medianas elevadas se agrupa entre abril y junio, así como también en septiembre y diciembre. Los puntos atípicos se observan en diferentes meses, lo que sugiere una inestabilidad ocasional que se aparta de los patrones estacionales habituales.

Después de definir la distribución y el comportamiento estadístico de la variable en el análisis descriptivo, se avanza hacia el estudio del análisis de series temporales.

Series de tiempo

Serie de tiempo accidentes ofídicos femeninos

La serie de accidentes ofídicos en mujeres refleja un crecimiento evidente en la cantidad de incidentes durante el tiempo, especialmente a partir de 2018. Este dato sugiere que la frecuencia mensual de accidentes ha ido en aumento. Adicionalmente a esta tendencia, la serie muestra una gran variedad y estabilidad, destacándose por la presencia de altibajos que se repiten cada año, con los picos más altos ocurriendo hacia el final del periodo.

Mapa de calor

Un mapa de calor en series de tiempo es una visualización gráfica que representa valores numéricos a lo largo del tiempo mediante una cuadrícula de colores

Mapa de calor para accidentes ofídicos femeninos

El mapa de calor muestra la distribución de accidentes ofídicos en mujeres indica que hay una clara estacionariedad a lo largo del año en los incidentes. La mayoría de los casos, representados con colores más oscuros como púrpura y azul, se agrupan principalmente en mayo y, en menor medida, en junio, aunque esta tendencia es menos marcada que en los hombres. Los meses con menor número de incidentes, reflejados en tonos verdes y blancos, se encuentran mayormente al principio del año en enero y febrero, así como a finales del año en noviembre y diciembre, en la mayoría de los años.

Descomposición de la serie

Descomposición aditiva - serie accidentes ofídicos femeninos

Descomposición multiplicativa – Serie accidentes ofídicos femeninos

En la descomposición aditiva se observa que la magnitud de los picos y valles a lo largo de los años no aumenta significativamente a pesar de la tendencia ascendente. Esto sugiere que el modelo aditivo podría ser una representación razonable de la serie. Mientras que la descomposición multiplicativa unque la serie femenina tiene una tendencia ascendente, el componente estacional de esta descomposición muestra un patrón donde la amplitud de la onda es constante, al igual que en la descomposición aditiva. Por lo tanto la descomposición aditiva es la más adecuada porque la amplitud de la estacionariedad no parece amplificarse visiblemente con el tiempo.

Estacionariedad

KPSS-test

Para confirmar si la serie es estacionaria, se da uso de la prueba de KPSS

Estacionariedad para accidentes ofídicos femenino

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_F
## KPSS Level = 2.4446, Truncation lag parameter = 4, p-value = 0.01

El análisis de estacionariedad para la serie temporal de accidentes ofídicos femeninos, utilizando el test de KPSS, indica que la serie no es estacionaria en media. Este resultado se obtiene dado que, visualmente, la serie presenta una clara tendencia ascendente, lo que implica que el p-valor de la prueba debe ser menor que el nivel de significancia de 0.05.

Por lo tanto, se rechaza la hipótesis donde el proceso es estacionario, es decir, las muertes por accidentes ofídicos femeninos. Para corroborar la necesidad de diferenciación, se da uso a la función ndiffs.

## La serie necesita diferenciación.
## Número de diferencias sugeridas: 1

Al realizar la función  ndiffs, esta arroja un resultado de 1, lo que comprueba que la serie necesita una diferencia para volverse estacionaria

Gráfica de la serie accidentes ofídicos femeninos diferenciada

El gráfico de la serie diferenciada de accidentes ofídicos femeninos es el resultado de aplicar una diferencia, el gráfico resultante muestra una serie que oscila de manera aleatoria y estable alrededor de cero a lo largo de todo el periodo, sin una tendencia ascendente o descendente visible

Función de autocorrelación y función de autocorrelación parcial(FAC, FACP)

FAC Y FACP serie accidentes ofídicos femeninos

La Función de Autocorrelación de la serie original de accidentes femeninos se espera que decaiga lentamente, lo cual confirma la no estacionariedad. La presencia de picos significativos en el rezago 12 en la función de autocorrelación parcial esta función muestra un pico significativo en el rezago 1 y también picos en el rezago 12 y sus múltiplos.

FAC Y FACP serie accidentes ofídicos femeninos diferenciada

La Función de Autocorrelación (FAC) de la serie diferenciada muestra que, a corto plazo, no hay correlación significativa en los primeros rezagos. No obstante, se observa una barra negativa y significativa en el rezago 12 Lag=12. Por otro lado, la Función de Autocorrelación Parcial (FACP) presenta un patrón de picos significativos en el rezago 1 (negativo) y rezago 2 (positivo). Además, se observa un pico positivo y significativo en el rezago 12 Lag=12.

Identificación de los modelos

Una vez analizados los patrones de autocorrelación y confirmada la estacionariedad de las series, se procede a la etapa de identificación y formalización de los modelos AR, MA, ARMA, ARIMA y SARIMA.

Modelo ARIMA para la serie accidentes ofídicos femenino

## Series: ts_F 
## ARIMA(3,0,2) with non-zero mean 
## 
## Coefficients:
##          ar1      ar2     ar3      ma1     ma2      mean
##       1.7246  -1.1318  0.3921  -1.2560  0.4280  107.5213
## s.e.  0.1986   0.2454  0.0808   0.2094  0.1739   12.6117
## 
## sigma^2 = 368.7:  log likelihood = -933.75
## AIC=1881.5   AICc=1882.04   BIC=1905.06

\[ X_t = 1.7246\,X_{t-1} - 1.1318\,X_{t-2} + 0.3921\,X_{t-3} + 107.5213 + \varepsilon_t - 1.2560\,\varepsilon_{t-1} + 0.4280\,\varepsilon_{t-2} \]

El modelo ARIMA(3, 0, 2) representa de manera implícita la tendencia observada en la serie original mediante un componente autorregresivo de orden 3 (AR1, AR2, AR3) y de Media Móvil de orden 2 (MA1, MA2), y también incorpora una media 107. 5213 que es distinta de cero. Sin embargo, su validez se basa en la condición de que los residuos sean verdaderamente estacionarios, lo cual es dudoso dado que no se ha llevado a cabo la diferenciación de forma explícita.

Modelo ARIMA para la serie accidentes ofídicos femenino diferenciado

## Series: ts_F 
## ARIMA(2,1,2) 
## 
## Coefficients:
##          ar1      ar2      ma1     ma2
##       0.7190  -0.3850  -1.2428  0.3999
## s.e.  0.1993   0.0856   0.2072  0.1786
## 
## sigma^2 = 367.8:  log likelihood = -929.9
## AIC=1869.81   AICc=1870.1   BIC=1886.61

\[ X_t = 1.7190\,X_{t-1} - 1.1040\,X_{t-2} + 0.3850\,X_{t-3} - 1.2428\,\varepsilon_{t-1} + 0.3999\,\varepsilon_{t-2} + \varepsilon_t \]

El análisis de identificación de modelos para la serie de accidentes ofídicos femeninos diferenciada d=1 establece el modelo ARIMA(2, 1, 2) . Este modelo confirma la necesidad de una diferencia d=1 para eliminar la tendencia y estabilizar la media de la serie, llegando a la estacionariedad. La estructura seleccionada combina un componente autorregresivo de orden 2 AR2 y un componente de media móvil de orden 2 MA2 en conjunto.

Modelo SARIMA

Modelo SARIMA para la serie accidentes ofídicos femeninos

## Series: ts_F 
## ARIMA(1,0,2)(2,0,0)[12] with non-zero mean 
## 
## Coefficients:
##          ar1      ma1      ma2    sar1    sar2      mean
##       0.9580  -0.5589  -0.1678  0.2037  0.2308  106.3430
## s.e.  0.0272   0.0783   0.0756  0.0787  0.0846   12.7345
## 
## sigma^2 = 349.2:  log likelihood = -928.89
## AIC=1871.78   AICc=1872.32   BIC=1895.34

Se escribe mediante el operador de retardo

\[ (1 - 0.9580 B)(1 - 0.2037 B^{12} - 0.2308 B^{24})X_t = (1 - 0.5589 B - 0.1678 B^2)\varepsilon_t + 106.3430 \]

\[ X_t = 0.9580 X_{t-1} + 0.2037 X_{t-12} - 0.1951446 X_{t-13} + 0.2308 X_{t-24} - 0.2211064 X_{t-25} + 106.3430 + \varepsilon_t - 0.5589 \varepsilon_{t-1} - 0.1678 \varepsilon_{t-2} \]

El análisis de identificación de modelos para la serie de accidentes ofídicos femeninos, utilizando la función auto.arima() sin diferenciacióncon el componente estacional, establece el modelo SARIMA(1, 0, 2)(2, 0, 0)[12] con media no cero . Este modelo utiliza d=0 y modela la tendencia ascendente de la serie de manera implícita mediante el componente AR(1) y la media no nula 106.3430. La estructura seleccionada combina un componente autorregresivo de orden uno AR1y un componente de media móviles de orden dos MA(2) para la dependencia a corto plazo, y un componente Autorregresivo Estacional SAR de orden 2 para capturar la fuerte estacionariedad anual observada

Modelo SARIMA para la serie accidentes ofídicos femeninos diferenciado

## Series: ts_F 
## ARIMA(0,1,2)(2,0,0)[12] 
## 
## Coefficients:
##           ma1      ma2    sar1    sar2
##       -0.5807  -0.1957  0.1850  0.2111
## s.e.   0.0728   0.0753  0.0778  0.0852
## 
## sigma^2 = 351.4:  log likelihood = -925.79
## AIC=1861.58   AICc=1861.87   BIC=1878.38

\[ (1-0.1850B^{12}-0.2111B^{24})(X_t - X_{t-1}) = \varepsilon_t - 0.5807\varepsilon_{t-1} - 0.1957\varepsilon_{t-2} \]

\[ X_t = X_{t-1} + 0.1850\,(X_{t-12}-X_{t-13}) + 0.2111\,(X_{t-24}-X_{t-25}) + \varepsilon_t -0.5807\varepsilon_{t-1} -0.1957\varepsilon_{t-2} \]

El análisis automático de la serie de accidentes ofídicos femeninos, forzando la diferenciación d=1 y la estacionariedad, seleccionó el modelo SARIMA(0, 1, 2)(2, 0, 0)[12]. Este modelo registró el menor valor de AIC =1861.58, indicando el mejor ajuste y parsimonia de la serie. La diferenciación d=1 confirma la necesidad de ser estacionaria. La estructura seleccionada combina un componente de Media Móvil de orden 2 MA(2) y un componente Autorregresivo Estacional de orden 2 sar(2)

Segundo modelo SARIMA candidato

## Series: ts_F 
## ARIMA(2,1,2)(2,0,0)[12] 
## 
## Coefficients:
##          ar1      ar2      ma1     ma2    sar1    sar2
##       0.7476  -0.3001  -1.3420  0.5002  0.1612  0.2187
## s.e.  0.3215   0.0966   0.3293  0.2672  0.0804  0.0859
## 
## sigma^2 = 349.2:  log likelihood = -924.1
## AIC=1862.2   AICc=1862.75   BIC=1885.73

Mediante operador de retardo

\[ (1 - 0.7476B + 0.3001B^{2})(1 - 0.1612B^{12} - 0.2187B^{24})(1-B)X_t = (1 - 1.3420B + 0.5002B^{2})\varepsilon_t \]

Sustituyendo.

\[ X_t = X_{t-1} + 0.7476(X_{t-1}-X_{t-2}) - 0.3001(X_{t-2}-X_{t-3}) + 0.1612(X_{t-12}-X_{t-13}) + 0.2187(X_{t-24}-X_{t-25}) + \varepsilon_t - 1.3420\varepsilon_{t-1} + 0.5002\varepsilon_{t-2} \]

Al examinar la función auto. arima() aplicada a la serie temporal de accidentes ofídicos en mujeres, surgió un modelo alternativo: SARIMA(2, 1, 2)(2, 0, 0)[12]. Este modelo, que efectivamente incorpora la diferenciación necesaria d=1, muestra un AIC de 1862. 1, un valor que supera por poco al SARIMA(0, 1, 2)(2, 0, 0)[12] más óptimo 1861. 58. La configuración escogida une componente autorregresivo de orden dos AR(2) y un componente de medias móviles de orden MA(2) no sujetos a la estacionariedad, junto a un componente Autoregresivo Estacional de segundo orden SAR(2).

Prueba de los residuos

El análisis de residuos es la etapa más importante y final en la construcción de un modelo de series de tiempo, como el SARIMA. Su objetivo principal es confirmar que el modelo seleccionado ha capturado completamente todas las dependencias (tendencia, estacionariedad y autocorrelación) presentes en la serie.

Análisis de los residuos del modelo ARIMA(2,1,2)

Análisis gráfico

La representación visual de los residuos revela que estos varían aleatoriamente en torno al valor cero a medida que transcurre el tiempo, lo cual sugiere inicialmente un ajuste adecuado. No obstante, la continuidad de una volatilidad incrementada al comienzo del período (aproximadamente en 2008), sugiere que el modelo no esta capturando los outliers de manerA ADECUADA.

El análisis de los cuatro gráficos de residuos del modelo ARIMA(2, 1, 2) revela que, aunque el modelo logra la estacionariedad en media el gráfico de residuos oscila aleatoriamente alrededor de cero, falla en capturar la estacionariedad y la normalidad. La FAC y la FACP de los residuos aún muestran barras significativas cerca del rezago 12 , lo que indica que la dependencia estacional no ha sido eliminada. Además, el Q-Q Plot muestra que los puntos en los extremos se desvían notablemente de la línea diagonal.

Análisis de los residuos del modelo SARIMA(0,1,2)(2, 0, 0)[12]

Análisis gráfico

El análisis gráfico de los residuos del modelo SARIMA}(0, 1, 2)(2, 0, 0)[12] revela que el modelo ha capturado con éxito la tendencia y la estacionariedad de la serie de accidentes femeninos. El gráfico de residuos muestra que los errores oscilan de manera aleatoria y estable alrededor de cero a lo largo del tiempo, sin patrones evidentes.

El análisis conjunto de los cuatro gráficos de residuos del modelo SARIMA(0,1,2)(2,0,0)[12] residuals] confirma que el modelo es adecuado para la predicción. El gráfico de residuos ] muestra que los errores oscilan de manera aleatoria alrededor de cero sin ningún patrón, lo que indica que toda la estructura ha sido capturada. Las funciones de autocorrelación FAC y FACP de los residuos no presentan barras que crucen los límites de confianza en ningún rezago, lo que confirma que la autocorrelación residual ha sido eliminada y que los errores son independientes (ruido blanco). Por último, el  Q-Q Plot muestra que los puntos se alinean estrechamente a lo largo de la línea diagonal.

Análisis de los residuos del modelo SARIMA(2,1,2)(2, 0, 0)[12]

Análisis gráfico

El análisis gráfico de los residuos del modelo SARIMA(2, 1, 2)(2, 0, 0)[12] revela que, al igual que el modelo óptimo, logra capturar la tendencia y estacionalidad de la serie. El gráfico de residuos muestra que los errores oscilan de manera aleatoria y estable alrededor de cero a lo largo del tiempo, sin un patrón evidente.

La representación gráfica de los residuos revela que las desviaciones fluctúan de forma impredecible y constante en torno al valor cero, sin mostrar ninguna tendencia definida. Las funciones de autocorrelación simple y parcial de los residuos no exhiben picos que excedan los intervalos de confianza en ningún desfase, lo cual corrobora que se ha suprimido la autocorrelación residual y los errores son independientes entre sí. Finalmente, el diagrama Q-Q indica que los puntos se ajustan bastante bien a lo largo de la línea diagonal, lo que implica que la presunción de normalidad de los residuos se cumple de manera aceptable, pese a la leve diferencia observada en los extremos.

Comparación de modelos ARIMA candidatos
Modelo AIC BIC KPSS_p LjungBox_p Normalidad_p
ARIMA(2,1,2) 1869.806 1886.613 0.1 0.01645 0
ARIMA(0,1,2)(2,0,0)[12] 1861.577 1878.384 0.1 0.12483 0
ARIMA(2,1,2)(2,0,0)[12] 1862.201 1885.730 0.1 0.38466 0

Tras examinar a fondo los tres modelos ARIMA/SARIMA propuestos para la serie temporal de incidentes con serpientes que afectaron a mujeres, se seleccionó el modelo SARIMA (0, 1, 2)(2, 0, 0)[12] como la opción definitiva y más idónea. Este modelo exhibió el valor más bajo en el criterio AIC (1861.577), lo cual confirma su superior balance entre la precisión del ajuste y la simplicidad de la estructura utilizada. Al incorporar la diferenciación d=1, se logró suprimir la tendencia creciente observada, y, aún más importante, el valor \(p\) resultante de la prueba de Ljung-Box 0. 12483 superó el umbral de 0. 05, ratificando así que los residuos son independientes. Pese a que se desestimó la asunción de normalidad p=0, esto representa un inconveniente menor comparado con el modelo ARIMA(2, 1, 2), el cual fue descartado por no presentar residuos independientes Ljung-Box\_p}=0. 01645, debido a la presencia de estacionariedad no abordada.

Previsiones

La previsión es el paso final y crucial en el análisis de series de tiempo, donde el objetivo es estimar los valores futuros de la variable de interés, en este caso, el número de accidentes ofídicos femeninos.

Previsión ARIMA(2,1,2) serie accidentes ofídicos femeninos

La previsión sugiere que el incremento constante que se veía en el pasado ahora se detendrá. Se prevé un promedio de incidentes relacionados con mordeduras de serpientes en mujeres que superará levemente los 125 al mes, aunque sin el aumento acelerado de los últimos tiempos. No se aprecia una variación estacional marcada, lo cual difiere de lo que ocurría antes, cuando se notaban subidas importantes cada año. A medida que pasa el tiempo, las bandas de confianza se hacen más grandes, algo común en cualquier predicción. Esta extensión notable, que va desde menos de 100 hasta casi 200 casos al final, refleja lo inestable que es esta serie de incidentes y la dificultad para la previsíón.

Previsión SARIMA(0,1,2)(2,0,0)[12] serie accidentes ofídicos femeninos

El gráfico de previsón de accidentes ofídicos en mujeres muestra que el modelo SARIMA(0, 1, 2)(2, 0, 0)[12], elegido por su óptimo nivel AIC=1861. 577, indica que el aumento constante visto en los datos pasados se estabilizarán. La previsión persiste en un punto medio elevado, solo un poco más arriba de los 125 sucesos por mes, con cierta regularidad en los aumentos anuales que no es tan marcada como en los datos antiguos. Lo más importante son las bandas de confianza que se ensancha poco a poco.

Previsión SARIMA(2,1,2)(2,0,0)[12] serie accidentes ofídicos femeninos

La representación gráfica de la previsión de incidentes ofídicos en mujeres revela la estimación efectuada mediante el modelo SARIMA(2, 1, 2)(2, 0, 0)[12]; se prevé que la trayectoria incremental pasada en sucesos femeninos se calme en el tiempo, manteniendo una media de casos que sobrepasará levemente los 125 al mes. La línea media de la previsión denota un crecimiento temporal muy discreto, sin las cúspides remarcadas apreciadas con anterioridad, lo cual podría señalar que el modelo no ha atrapado por completo la dimensión de la serie. La cualidad primordial son las extensas y crecientes bandas de confianza.

Al analizar las tres previsiones (dos SARIMA y un ARIMA) para la cantidad de incidentes por mordedura de serpiente en mujeres, se observa una regularidad en la detención del incremento, aunque no logran capturar la fluctuación por temporada en el promedio. Los tres esquemas predictivos indican que el aumento constante previo se frena, asentando el promedio de casos mensuales un poco arriba de 125 , si bien las líneas centrales de la previsión no exhiben la marcada variación anual mayo y junio, lo que insinúa una posible infravaloración de los efectos estacionales. El aspecto más evidente en todas las previsiones son las extensas y crecientes bandas.

Planteamiento del Problema

¿Por qué hay picos elevados como de caídas bruscas entre el año 2007 y 2008, con los accidentes ofídicos femeninos en Colombia?.

Posible solución

En 2007, los accidentes ofídicos fueron integrado cpmo evento de notificación obligatoria mediante el sistema de SIVIGILIA, lo que género una transición abrupta en la calidad y cantidad de los reportes. El informe nacional del Instituo Nacional de Salud para el año 2008 muestra que la cobertura inicial fue limitada, con problemas de subregistro, duplicidad de casos y diferencias significativas entre departamentos. Esto se manifiesta como amplias fluctuaciones y picos extremos en la serie durante este periodo (Instituto Nacional de Salud. 2008).

Los lineamientos y normativas emitidas por el INS señalan que, durante los primeros años, el personal estuvo en proceso de capacitación y ajuste de metodologías, lo que originó inconsistencias temporales en la notificación de casos femeninos. Además, factores como la estacionalidad, las actividades agrícolas y la exposición laboral en regiones rurales contribuyeron a la variabilidad en los registros mensuales. Estudios regionales como el de  Sevilla-Sánchez et al. (2019)  destacan que estos factores sociales y climáticos, sumados al acceso desigual a la atención médica y a los antivenenos, influyeron sustancialmente en los reportes de la población femenina

En conclusión, la posible solución a la pregunta sobre la marcada variabilidad de los accidentes ofídicos femeninos en Colombia entre 2007 y 2008 implica reconocer la importancia de la transición en los sistemas de vigilancia, el contexto socioambiental y la interpretación de los datos, ya que estos son de gran importancia y estar sumamente cautelosos para su debido estudio.

Conclusiones

Serie septicemia

El análisis de la serie temporal de defunciones mensuales por septicemia puso de manifiesto un patrón estacional bien definido, mostrando los momentos de mayor mortalidad agrupados de forma reiterada en determinadas épocas del año, sobre todo durante agosto, septiembre, octubre y diciembre. Adicionalmente, se detectó un suave incremento en la cantidad de muertes conforme avanzaba el período examinado. Para reproducir la serie, se utilizaron modelos SARIMA (tales como SARIMA(1,0,0)(2,1,0)[12] y SARIMA(1,1,1)(2,1,0)[12]) para recoger de manera apropiada los efectos autorregresivos, la media móvil y el componente estacional existente en los datos.

Serie diabete mellitus

El número de fallecimientos mensuales vinculados a la diabetes mellitus exhibió un incremento notable y patrones estacionales claros. Para su estudio y representación, fue necesario ajustar la serie temporal para asegurar su estabilidad. Los modelos SARIMA escogidos, tales como SARIMA(2,1,0)(2,1,0)[12] y SARIMA(0,0,1)(2,1,0)[12], resultaron ser adecuados para plasmar esta evolución intrincada, facilitando previsiones que capturan la progresión al alza y los ritmos mensuales de la mortalidad por esta causa.

Serie de accidentes ofídicos - masculino (2007-2024)

El análisis de la serie temporal mensual de incidentes por mordedura de serpiente en hombres colombianos (2007-2024) arrojó que no era estacionaria, necesitando un ajuste mediante diferenciación para su modelización. La principal peculiaridad observada fue una marcada estacionariedad, lo que sugiere que las mordeduras de serpientes ocurren con mucha más frecuencia durante determinados meses del año. Para modelar adecuadamente estos patrones estacionales y lograr predicciones precisas, se eligieron modelos SARIMA específicos, tales como SARIMA(0,1,2)(2, 0, 0)[12] y SARIMA(5, 1, 0)(2, 0, 0)[12].

Serie de accidentes ofídicos - femenino (2007-2024)

Al igual que la serie masculina, el número de accidentes ofídicos reportados en la población femenina de Colombia (2007-2024) también constituyó una serie no estacionaria que tiene un claro y dominante componente estacional. El análisis se centró en la selección de modelos SARIMA (como SARIMA(0,1,2)(2, 0, 0)[12] y SARIMA(2,1,2)(2, 0, 0)[12]) capaces de aislar y proyectar la estacionariedad subyacente de la frecuencia de accidentes.

Conclusión general

Tras examinar las cuatro series temporales de salud (fallecimientos por septicemia, por diabetes mellitus y por mordeduras de serpiente, diferenciados por género), se hizo evidente que un elemento clave y recurrente en todas ellas es la fuerte influencia estacional en los datos mensuales. Se constató que las series de mortalidad en EE. UU. (tanto por septicemia como por diabetes mellitus) exhiben una inclinación general ascendente entre 2014 y 2019. En contraste, las series de incidentes por mordeduras de serpiente en Colombia (tanto en hombres como en mujeres) manifestaron una no estacionariedad que hizo necesaria una diferenciación para su modelado. En gran parte de los casos, el uso de modelos de Series Temporales con elementos estacionales (SARIMA) fue crucial para reflejar las dinámicas de tendencia y estacionariedad.

Referencias