Análisis de series temporales

Primera parte

Descripción de los datos

Se analizan datos del departamento del Cesar, en Colombia, con datos mensuales sobre la leche cruda que se le paga a los productores con una bonificación. Los datos cubren desde enero de 2007 hasta mayo del 2025.

Cada registro en el archivo es un mes y tiene el nombre del departamento, la fecha, el precio promedio por litro de leche en pesos colombianos, cuánto cambió ese precio comparado con el mes anterior, cuántos litros se vendieron y cómo cambió ese volumen comparado con el mes anterior. Con esto, se logra ver cómo cambian los precios y cómo va la producción de leche en el Cesar.

Al principio, en enero de 2007, la leche costaba alrededor de 672 pesos por litro. Los precios varian muy poco de mes a mes, casi siempre como un ±2 %, lo que indica que los precios se mantienen más o menos estables. Pero la cantidad de leche producida cambia mucho. Hay meses donde se producen más de 18 millones de litros y otros donde no llegan ni a 7 millones. Los cambios en la cantidad de leche vendida a veces son muy grandes, incluso más del 100 %. Esto quiere decir que la producción es muy variable y que podría depender de la época del año o del clima.

Cabe aclarar que las variables propuestas a analizar son el precio y volumen de litros a lo largo de los meses desde el 2007 hasta el 2025 en el Cesar.

En resumen, los datos dejan ver cómo ha cambiado el mercado de la leche en el Cesar a lo largo de los años, analizar cómo van los precios y la producción, y ver si hay alguna relación entre estas dos cosas, lo que podría reflejar cómo funciona la oferta y la demanda en la región.

Analisis descriptivo

## # A tibble: 6 × 6
##   Departamento fecha           Precio `Variacion Precio (%)` `Volumen (Litros)`
##   <chr>        <chr>            <dbl>                  <dbl>              <dbl>
## 1 Cesar        Enero de 2007     672                   0               18248224
## 2 Cesar        Febrero de 2007   679.                  1.04             9686344
## 3 Cesar        Marzo de 2007     688.                  1.36             9447136
## 4 Cesar        Abril de 2007     676.                 -1.79             6945503
## 5 Cesar        Mayo de 2007      690.                  2.14            16050558
## 6 Cesar        Junio de 2007     686.                 -0.604           18248224
## # ℹ 1 more variable: `Variacion Volumen (%)` <dbl>

Como se puede observar, se tiene una base de datos con 210 observaciones y 6 variables.

##  Departamento          fecha               Precio       Variacion Precio (%)
##  Length:210         Length:210         Min.   : 672.0   Min.   :-7.3115     
##  Class :character   Class :character   1st Qu.: 840.6   1st Qu.:-0.9475     
##  Mode  :character   Mode  :character   Median : 968.0   Median : 0.4529     
##                                        Mean   :1148.9   Mean   : 0.5600     
##                                        3rd Qu.:1285.5   3rd Qu.: 1.7954     
##                                        Max.   :2418.5   Max.   :10.2124     
##  Volumen (Litros)   Variacion Volumen (%)
##  Min.   : 6715049   Min.   :-46.919      
##  1st Qu.:10182867   1st Qu.: -9.785      
##  Median :12644178   Median : -1.920      
##  Mean   :13383666   Mean   :  1.106      
##  3rd Qu.:16241197   3rd Qu.:  8.651      
##  Max.   :26978872   Max.   :131.093

Aquí se logra apreciar un resumen descriptivo de las variables de interés; el precio más bajo al que se ha pagado el litro de leche es de 672 pesos por litro, siendo esa cifra la correspondiente al primer mes del año 2007, además se tiene una mediana de 968 pesos y una media de 1148 pesos por litro aproximadamente, también se aprecia un valor máximo de 2418 pesos por litro como pago a los productores.

Ahora, correspondiendo a la producción de leche, se tiene una mayor variabilidad de los datos, con una media y mediana distantes alrededor de 70000 litros.

Precio de leche cruda pagada al productor con bonificación en el Cesar

## Varianza: 199112.9

## Desviación estándar: 446.22

## Coeficiente de variación: 38.84 %

El precio de la leche tiene una desviación estándar de 446.22 COP, lo que quiere decir que, en general, los precios individuales varían de la media en unos $446 COP. Esta es una variabilidad entre moderada y alta si pensamos que el precio promedio (que está entre 1000 y 1200 COP) no es muy alto. El coeficiente de variación, que es del 38.84 %, confirma esto,lo que significa que el precio de la leche ha subido y bajado bastante durante el tiempo analizado.

Los datos muestran que muchos precios están en los niveles más bajos. Esto podría significar que el mercado suele tener precios estables cerca de un promedio, aunque a veces hay precios altos, tal vez por eventos especiales o productos caros.

precio<- primeraparte$Precio
# Asegurar que 'precio' sea numérico y sin NA
precio <- as.numeric(precio)
precio <- precio[!is.na(precio) & precio > 0]

# Ajustar distribuciones
ajuste_norm <- fitdist(precio, "norm")
ajuste_lognorm <- fitdist(precio, "lnorm")
ajuste_gamma <- fitdist(precio, "gamma")

# Crear tabla comparativa de AIC y BIC
comparacion <- data.frame(
  Distribucion = c("Normal", "Log-normal", "Gamma"),
  AIC = c(ajuste_norm$aic, ajuste_lognorm$aic, ajuste_gamma$aic),
  BIC = c(
    AIC(ajuste_norm, k = log(length(precio))),
    AIC(ajuste_lognorm, k = log(length(precio))),
    AIC(ajuste_gamma, k = log(length(precio)))
  )
)

# Mostrar tabla ordenada por AIC
comparacion <- comparacion[order(comparacion$AIC), ]
print(comparacion)

##   Distribucion      AIC      BIC
## 2   Log-normal 3084.709 3091.403
## 3        Gamma 3104.932 3111.626
## 1       Normal 3161.294 3167.988

La distribución Log-normal es la que mejor se ajusta al precio de la leche cruda en el Cesar. Este resultado es coherente con el comportamiento del mercado, donde factores como calidad, transporte o intermediación generan una dispersión leve pero asimétrica en los precios.

# --- COMPARACIÓN DE DENSIDAD Y CDF PARA PRECIO ---
par(mfrow = c(1,2))

# Comparación de curvas de densidad
denscomp(
  list(ajuste_lognorm, ajuste_gamma, ajuste_norm),
  legendtext = c("Log-normal", "Gamma", "Normal"),
  main = "Comparación de Densidad - Precio",
  xlab = "Precio (COP)",
  ylab = "Densidad"
)

# Comparación de curvas de distribución acumulada (CDF)
cdfcomp(
  list(ajuste_lognorm, ajuste_gamma, ajuste_norm),
  legendtext = c("Log-normal", "Gamma", "Normal"),
  main = "Comparación de CDF - Precio",
  xlab = "Precio (COP)",
  ylab = "Probabilidad acumulada"
)

Los precios tienden a amontonarse en el extremo inferior, con solo unos pocos precios muy altos. La distribución normal no refleja bien esto porque es demasiado centrada y simétrica, las distribuciones log-normal y gamma se adaptan mejor a esta tendencia.

De estas dos, la log-normal (línea roja) se parece más al histograma, sobre todo al principio y en el punto máximo.

Según la comparación de las densidades de las distribuciones candidatas con la distribución de los datos, la distribución log-normal describe mejor cómo se distribuyen los precios, lo cual concuerda con los criterios AIC/BIC.

Los puntos negros muestran cómo se distribuyen realmente los datos (CDF observada), las líneas representan las CDF teóricas ajustadas.

La línea roja log-normal) es la que más se parece a los puntos negros en casi todo el gráfico, la línea azul (normal) no coincide bien con los puntos negros en los extremos; es decir, no predice bien los valores muy bajos o muy altos y la línea verde (gamma) es más o menos correcta, pero no tan buena como la verde.

El gráfico muestra que muchos de los precios están cerca de los 1000 pesos colombianos (COP), algo que se ve en la mediana (la línea dentro de la caja). El rango intercuartílico (la altura de la caja) es relativamente estrecha, indicando que la mayor parte de los precios presentan poca variabilidad dentro de ese rango central, sin embargo, hay algunos precios muy altos a la derecha (outliers).

En general, el precio de la leche cruda en el Cesar ha subido bastante, de menos de 800 pesos por litro en 2007 a más de 2000 pesos en 2024.

Esto quiere decir que la leche ha ido valiendo más con el tiempo, tal vez por lo que cuesta producirla, llevarla de un lado a otro, la inflación y las decisiones que toma el gobierno sobre el campo de producción.

ggplot(primeraparte, aes(x = Precio, y = Mes)) +
  geom_boxplot(fill = "lightblue", color = "darkblue", alpha = 0.6) +
  labs(
    title = "Distribución del Precio por mes",
    x = "Precio (COP por litro)",
    y = "Mes"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    panel.grid.minor = element_blank()
  )

En todos los meses, los precios presentan una distribución bastante similar, con medianas que rondan entre 900 y 1200 COP/litro. Sin embargo, se observan valores atípicos (puntos azules) que alcanzan hasta 2400 COP/litro, indicando meses con precios excepcionalmente altos. Los precios varían más o menos igual, aunque en algunos meses (como abril, mayo y junio) variaron un poco más.

Abril, mayo y junio suelen tener valores medios un poco más altos, lo que indica que las cosas podrían subir en el primer semestre del año. Esto podría estar asociado con mayor demanda o menor oferta en ese periodo (por ejemplo, condiciones climáticas o de producción).

Agosto, septiembre y octubre tienen cajas más pequeñas, lo que quiere decir que los precios se mantienen más estables. En esos meses, los precios tienden a concentrarse más alrededor de su mediana.

En casi todos los meses hay outliers hacia arriba, lo que sugiere picos de precio en ciertos momentos. Esto podría reflejar eventos puntuales (escasez, costos de transporte, variaciones de mercado internacional, etc.).

ggplot(primeraparte, aes(x = Fecha, y = Precio)) +
  geom_line(color = "steelblue", linewidth = 1) +
  labs(
    title = "Precio de leche cruda con bonificación pagado al productor en el Cesar",
    x = "Fecha",
    y = "Precio (COP)"
  ) +
  theme_minimal() +
  theme(
    axis.text.x = element_text(angle = 45, hjust = 1)
  )

Entre 2007 y 2015, los precios se mantienen relativamente estables con ligeras fluctuaciones, evidenciando una tendencia creciente moderada.

Desde 2016, los precios empiezan a subir más rápido, con momentos de subidas grandes que indican que los precios subieron por un tiempo, quizás asociados a costos de insumos, variaciones climáticas o ajustes en políticas de compra.

Entre 2020 y 2023, los precios se dispararon, llegando a su punto más alto alrededor de 2023, casi a 2,400 COP. Esto podría tener que ver con la inflación, los costos de transporte o problemas para producir. Después, los precios bajaron bastante, lo que hace pensar que el mercado se está acomodando o que hay más productos disponibles.

En 2024–2025, los precios vuelven a subir, lo que podría indicar que están empezando a crecer otra vez o que se van a quedar en un nivel más alto.

La evolución del precio refleja una tendencia general creciente a largo plazo, aunque con fases cíclicas y alta volatilidad en los últimos años.

Volumen de litros de leche cruda comercializada en el Cesar

## Varianza: 1.547348e+13

## Desviación estándar: 3933635

## Coeficiente de variación: 29.39 %

El comportamiento del volumen de la leche producida en el Cesar refleja una tendencia creciente pero con alta volatilidad. Esta variación del 29.39 % quiere decir que la producción no es estable.

El volumen se inclina hacia la derecha, con la mayoría estando entre 8 y 15 millones de litros, pero con algunos picos altos. Esto quiere decir que hay algunos datos atípicos que hacen que la muestra varíe más.

##   Distribución      AIC      BIC
## 1   Log-normal 1153.846 1164.540
## 2        Gamma 1155.752 1166.446
## 3      Weibull 1178.497 1189.191

La distribución log-normal tiene los valores más bajos de AIC y BIC, así que parece la mejor opción para entender el volumen de producción.

La distribución gamma también se ajusta bastante bien, casi como la log-normal, lo que quiere decir que ambas sirven para describir cómo cambia el volumen.

La distribución de Weibull, aunque útil para ver cuánto duran las cosas o cuándo fallan, no es tan buena para estos datos comparada con las otras dos.

# --- COMPARACIÓN DE DENSIDAD Y CDF PARA VOLUMEN ---
par(mfrow = c(1,2))

# Comparación de curvas de densidad
denscomp(
  list(ajuste_lognorm, ajuste_gamma, ajuste_weibull),
  legendtext = c("Log-normal", "Gamma", "Weibull"),
  main = "Comparación de Densidad - Volumen",
  xlab = "Volumen (Millones de litros)",
  ylab = "Densidad",
)

# Comparación de curvas de distribución acumulada (CDF)
cdfcomp(
  list(ajuste_lognorm, ajuste_gamma, ajuste_weibull),
  legendtext = c("Log-normal", "Gamma", "Weibull"),
  main = "Comparación de CDF - Volumen",
  xlab = "Volumen (Millones de litros)",
  ylab = "Probabilidad acumulada",
)

Visualmente, la Log-normal es la que mejor sigue la forma del histograma:

Captura bien la asimetría positiva (cola hacia la derecha).

Reproduce con mayor precisión el pico principal (moda) cerca de los 12–14 millones de litros.

Mantiene una forma más natural en la cola derecha, donde las observaciones son menos frecuentes pero significativas.

La Gamma también tiene un buen ajuste, aunque su cola decae más ráoido.

La Weibull se desvía un poco más, sobre todo en la parte inicial y en la cola.

En el gráfico de CDF la log-normal (roja) se pega más a la curva de probabilidad acumulada real (los puntos negros), la gamma se mantiene cerca, pero con pequeñas diferencias en los extremos (en los valores más bajos y más altos) y la Weibull tiene una diferencia más notable en los valores bajos (no refleja bien la probabilidad acumulada al inicio).

En resumen, tanto la forma de la curva como el CDF confirman que la log-normal es la que mejor se ajusta a los datos, tanto visual como estadísticamente.

El boxplot muestra que en el Cesar, el volumen de leche producida suele estar entre 10 y 16 millones de litros, aunque con picos que superan los 25 millones, estos picos son datos atípicos.

Estos aumentos podrían deberse a temporadas de mucha producción, buen clima o buenos incentivos para vender.

A lo largo del periodo analizado se observa una disminución progresiva en el volumen total de leche comercializada.

En los primeros años (2007–2012), los volúmenes medianos se situaban alrededor de 15 a 20 millones de litros, con una alta dispersión.

Desde 2015 en adelante, se aprecia una tendencia a la baja, con medianas entre 10 y 13 millones de litros, lo que indica una reducción sostenida en la producción o comercialización del producto.

Desde 2020, las ventas se han mantenido más estables, aunque en cantidades menores.

En 2007 y alrededor de 2019, hubo algunos años en los que se vendió mucha más leche de lo normal.

Esto podría ser porque hubo momentos puntuales de mucha producción, quizás por buen tiempo o por ayudas para producir más leche.

# Gráfico boxplot horizontal
ggplot(primeraparte, aes(x = `Volumen (Litros)`, y = Mes)) +
  geom_boxplot(fill = "lightgreen", color = "darkgreen", alpha = 0.6) +
  scale_x_continuous(labels = function(x) x / 1e6) +
  labs(
    title = "Distribución del Volumen por mes",
    x = "Volumen (millones de L)",
    y = "Mes"
  ) +
  theme_minimal(base_size = 13) +
  theme(
    plot.title = element_text(hjust = 0.5, face = "bold"),
    panel.grid.minor = element_blank()
  )

El patrón de las cajas (medias, medianas y rangos) no es uniforme a lo largo del año. Los volúmenes son consistentemente más altos en ciertos meses y más bajos en otros, lo que sugiere la estacionalidad en la producción. Agosto, Septiembre, Octubre, Noviembre, Julio y Junio normalmente tienen las cajas a la derecha (con los valores más altos), y las medianas siempre están por encima de los 15 millones de litros. Esto indica que la segunda mitad del año, sobre todo de Junio a Noviembre, es cuando más se produce. Marzo, abril, enero y febrero son los meses con los valores más bajos, tienen las cajas más a la izquierda y promedian entre 10 y 13 millones de litros. Esto muestra que el inicio y la segunda parte del año son cuando menos se produce.Por último, el largo de las cajas (el rango entre el primer y tercer cuartil) cambia. Por ejemplo, marzo tiene una caja muy estrecha, lo que quiere decir que el volumen se mantuvo bastante estable y bajo durante los años. En cambio, junio y septiembre tienen rangos más grandes, lo que indica que varían más de un año a otro.

Entre 2007 y 2025, la cantidad de leche cruda comercializada en el Cesar ha cambiado bastante, con subidas y bajadas. Aunque ha variado, en general se ha visto que la cantidad ha ido bajando estos últimos años. Los cambios según la época del año nos podrían decir que la producción depende mucho del clima y de cómo se manejan los puntos de producción. Los momentos en que se produce más leche podrían estar relacionados con abundancia de ganado o con la existencia de ayudas al sector.

Correlación entre variables

## [1] -0.5565864

Esto sugiere que hay una relación moderada negativa entre cuánta leche se produce y su precio.

Si se produce más leche (hay más oferta), el precio normalmente baja.

Por el contrario, si se produce menos, el precio tiende a subir.

Descomposición STL

El método STL (Seasonal-Trend decomposition based on Loess) se utilizó en este análisis debido a su capacidad para descomponer una serie temporal en sus componentes de tendencia, estacionalidad y variación aleatoria, permitiendo una interpretación más clara del comportamiento subyacente de las variables de precio y volumen de leche.

A diferencia de los métodos clásicos de descomposición, el STL ofrece una estructura flexible y robusta, ya que permite que la estacionalidad cambie con el tiempo y maneja eficazmente la presencia de valores atípicos mediante técnicas de suavizamiento local (LOESS).

Cleveland et al. (1990) mencionan que este método da una forma fuerte y flexible de separar una serie temporal en tendencia, estacionalidad y residuo, permitiendo que la estacionalidad cambie con el tiempo y controlando bien los valores raros mediante regresión local ponderada (p. 1).

# Crear series temporales mensuales
ts_precio <- ts(primeraparte$Precio, start = c(year(min(primeraparte$Fecha)), month(min(primeraparte$Fecha))), frequency = 12)
ts_volumen <- ts(primeraparte$`Volumen (Litros)`, start = c(year(min(primeraparte$Fecha)), month(min(primeraparte$Fecha))), frequency = 12)

# Descomposición STL del Precio
plot(stl(ts_precio, s.window = "periodic"))
title(main = "Descomposición STL del Precio", outer = TRUE, line = -1)

# Descomposición STL del Volumen
plot(stl(ts_volumen, s.window = "periodic"))
title(main = "Descomposición STL del Volumen", outer = TRUE, line = -1)

Por lo que se logra apreciar en la descomposición del precio, la serie no es completamente estacionaria. La estacionalidad muestra un patrón anual claramente recurrente, lo cual indica que el precio de la leche sigue un comportamiento cíclico dentro de cada año. La tendencia revela una etapa de estabilidad hasta 2017, posteriormente se aprecia un crecimiento entre 2018 y 2022, pero últimamente ha bajado un poco.

Con respecto al volumen de leche, a lo largo de la serie, se ven cambios notorios, con subidas importantes antes de 2010 y, luego, se moderó un poco en los años recientes. Muestra un patrón estacional claro que se repite año tras año, como un ciclo. Se ve que al principio, aproximadamente hasta 2010, la tendencia subió, pero después empezó a bajar y se mantuvo estable a partir de 2015.

Prueba de estacionariedad

El contraste KPSS

Kwiatkowski et al. (1992) proponen el test KPSS con el fin de evaluar la hipótesis de estacionariedad de una serie temporal. Este enfoque considera que una serie $y_t$ puede expresarse como la suma de un componente de tendencia estocástica y un componente estacionario, de acuerdo con el siguiente modelo:

\[ y_t = \mu_t + \varepsilon_t \] \[ \mu_t = \mu_{t-1} + u_t \]

En este modelo, los errores $\varepsilon_t$ y $u_t$ son procesos independientes e idénticamente distribuidos con media cero y varianzas $\sigma^2_\varepsilon$ y $\sigma^2_u$, respectivamente. Además, $\mu_0$ representa una constante inicial desconocida.

El contraste se formula como:

\[ H_0: \sigma^2_u = 0 \quad \text{(la serie es estacionaria)} \] \[ H_1: \sigma^2_u > 0 \quad \text{(la serie presenta una raíz unitaria)} \]

Bajo la hipótesis nula, el proceso es estacionario, ya que no existe un componente de tendencia estocástica. En cambio, si se rechaza $H_0$, se concluye que la serie presenta no estacionariedad debida a la presencia de una raíz unitaria. Este test es especialmente útil por su consistencia frente a distintos tipos de procesos no estacionarios, incluyendo los integrados fraccionalmente.

Según López (2002), este tipo de contrastes resulta particularmente relevante en contextos donde las series pueden experimentar cambios estructurales en la media, lo que podría afectar la validez de las pruebas tradicionales de estacionariedad.

kpss.test(ts_precio)

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_precio
## KPSS Level = 3.4363, Truncation lag parameter = 4, p-value = 0.01

Un valor p de 0.01 sugiere que podemos descartar la idea de que la serie es estacionaria (H₀).

Esto quiere decir que la serie temporal del precio no es estacionaria tal cual, y se requiere diferenciarla antes de construir un modelo a partir de ella.

diff_precio <- diff(ts_precio)
kpss.test(diff_precio)

## 
##  KPSS Test for Level Stationarity
## 
## data:  diff_precio
## KPSS Level = 0.12521, Truncation lag parameter = 4, p-value = 0.1

Como se puede ver a partir de una diferenciación la serie es estacionaria. Esto confirma que la diferenciación eliminó la tendencia o raíz unitaria que tenía la serie original.

kpss.test(ts_volumen)

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_volumen
## KPSS Level = 2.3644, Truncation lag parameter = 4, p-value = 0.01

Se logra apreciar que la serie de volumen presenta un p-valor de 0.01 lo que indica que se rechaza la hipotesis nula de que la serie es estacionaria. Entonces se procede a hacer una diferencia de la serie.

diff_volumen <- diff(ts_volumen)
kpss.test(diff_volumen)

## 
##  KPSS Test for Level Stationarity
## 
## data:  diff_volumen
## KPSS Level = 0.0095464, Truncation lag parameter = 4, p-value = 0.1

Ya la serie diferencia cuenta con un p-valor de 0.1 > 0.05, entonces no se rechaza la hipotesis nula que propone que la serie es estacionaria.

ndiffs(ts_precio)

## [1] 1

ndiffs(ts_volumen)

## [1] 1

Por último, según la prueba estadística ndiffs(), ambas series necesitan una diferenciación no estacional (d=1) para que un posible modelo ARIMA funcione bien, lo que concuerda con la prueba kpss aplicada a las series del estudio.

ACF Y ACFP

Ahora se procede a graficar los correlogramas de las series presentadas.

# Configurar dos gráficos lado a lado
par(mfrow = c(1, 2))

Acf(ts_precio,10)
Pacf(ts_precio, 10)

Tomando de referencia el correlograma ACF vemos que el gráfico tiene un comportamiento en el que decae de manera lenta, mientras que en el PAFC se ve un corte a partir del desfase 1, después de que la serie se vuelve estacionaria al diferenciarla, se puede probar con un proceso AR(1) si la PACF conserva su forma. Pero aquí, la PACF confirma que la serie original no es estacionaria.

par(mfrow = c(1, 2))

Acf(ts_volumen,10)
Pacf(ts_volumen, 10)

Para la serie de volumen en el correlograma ACF, se aprecia un decaimiento rápido con picos en 1, 3 y 10, así mismo, se ve una misma decaída en el PACF con picos más altos en 1, 3 y 10, sin embargo, a partir del desfase 1 en el PACF hay un corte, lo que podría adelantar un posible modelo AR(1).

par(mfrow = c(1, 2))

Acf(diff_precio,10)
Pacf(diff_precio, 10)

Ya para la serie de precio diferenciada se ve en el correlograma ACF un corte abrupto a partir del lag 2 y en el FACP hay un decaimiento despues del lag 2, por lo que un posible modelo podría ser un ARIMA(2,1,2).

par(mfrow = c(1, 2))

Acf(diff_volumen,10)
Pacf(diff_volumen, 10)

La serie diferenciada de volumen es estacionaria, pero los gráficos indican una estructura compleja de ARIMA y fuertes efectos de rezagos altos (6, 8, 9), sin embargo, es complejo poder diagnosticar un posible modelo a partir de la interpretación de los correlogramas.

Ajustes de modelos ARIMA

## Series: ts_precio 
## ARIMA(1,1,2) 
## 
## Coefficients:
##          ar1      ma1     ma2
##       0.6040  -0.4959  0.3907
## s.e.  0.0922   0.0953  0.0704
## 
## sigma^2 = 1109:  log likelihood = -1028.05
## AIC=2064.11   AICc=2064.3   BIC=2077.48

El proceso ha identificado que la serie precio es mejor modelada utilizando un proceso ARIMA (1,1,2), este modelo toma en cuenta los precios anteriores AR(1) y los errores que hemos tenido en el pasado MA(2) sobre la serie diferenciada para lograr la estacionariedad.

Dado que $d=1$, el modelo se aplica a la primera diferencia, $Y_t = Y_t - Y_{t-1}$. Esto es equivalente a un proceso $\text{ARMA}(1, 2)$:

\[ Y_t = \phi_1 Y_{t-1} + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} \] \[ Y_t = Y_{t-1} + 0.6040(Y_{t-1} - Y_{t-2}) + \varepsilon_t - 0.4959\varepsilon_{t-1} + 0.3907\varepsilon_{t-2} \]

Sustituyendo los coeficientes estimados:

$$ Y_t = 1.6040Y_{t-1} - 0.6040Y_{t-2} + t - 0.4959{t-1} + 0.3907_{t-2}

Donde $\varepsilon_t$ representa el ruido blanco del proceso.

De acuerdo con el modelo, luego de la reciente volatilidad en el precio, lo probable es que la serie se estabilice en un nivel cercano al valor observado al final del periodo histórico, alrededor de los 2000 pesos. La banda de predicción (en azul) se expande con rapidez a medida que se extiende el horizonte temporal, reflejando una mayor incertidumbre en las predicciones. Esto indica que, aunque el modelo no prevé una tendencia marcada al alza o a la baja en el valor central del pronóstico, la posible variabilidad futura es importante, algo habitual en series con alta volatilidad histórica. En conclusión, el modelo predice una estabilización moderada, pero con una incertidumbre importante con respecto a los precios futuros.

Los residuos fluctúan cerca de cero, sin una tendencia clara y con una variabilidad relativamente constante, lo que indica que el modelo capturó la dinámica principal de la serie. No obstante, se identifican picos atípicos esporádicos que podrían sugerir sucesos específicos no explicados por el modelo (impactos externos). En general, el comportamiento observado es el esperado para un proceso de ruido blanco aproximado.

Los residuos del modelo ARIMA (1,1,2) se distribuyen alrededor de cero, sin patrones claros ni tendencias a la vista, lo que parece indicar que el modelo recogió bien la dinámica principal de la serie original. Los correlogramas (ACF y PACF) no muestran autocorrelaciones importantes después del primer rezago, lo que señala que no hay dependencia temporal restante y apoya la idea de que los residuos actúan como ruido blanco. Sin embargo, el gráfico Q-Q muestra que hay diferencias con la normalidad en las colas (valores absolutos más altos de los residuos), lo que puede indicar colas pesadas o la presencia ocasional de valores atípicos.

## Warning in kpss.test(arima1): p-value greater than printed p-value

## 
##  KPSS Test for Level Stationarity
## 
## data:  arima1
## KPSS Level = 0.083875, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  arima1
## X-squared = 16.628, df = 12, p-value = 0.1642

## 
##  Shapiro-Wilk normality test
## 
## data:  arima1
## W = 0.96563, p-value = 5.481e-05

Los resultados indican que, según la prueba KPSS (p-value = 0.1), no se rechaza la hipótesis nula de estacionariedad, por lo que los residuos del modelo pueden considerarse estacionarios; además, la prueba de Box-Ljung (p-value = 0.1642) muestra que no hay evidencia de autocorrelación significativa en los residuos, lo que sugiere que el modelo captura adecuadamente la dinámica temporal. Sin embargo, la prueba de Shapiro-Wilk (p-value = 5.48e-05) rechaza la normalidad de los residuos, indicando que estos no siguen una distribución normal, aunque esto no invalida necesariamente el modelo ARIMA, sí puede afectar la precisión de intervalos de confianza y pronósticos basados en supuestos estrictamente normales.

SARIMA, o modelo Autorregresivo Integrado de Media Móvil Estacional, amplía el modelo ARIMA convencional para analizar series de tiempo que exhiben patrones estacionales. A diferencia de ARIMA, que se adapta mejor a datos sin estacionalidad, SARIMA incorpora elementos estacionales para abordar las variaciones periódicas y mejorar la precisión de las predicciones en datos estacionales (GeeksforGeeks,2025).

Según Chinlli (2021),generalmente, la serie de tiempo original $\\{Y_t\\}$ utiliza un operador de retardo $B$ para procesar el modelo SARIMA $(p, d, q) (P, D, Q)_s$.

Donde:

AR(p): Componente autorregresivo de orden p. I(d): Componente integrado de orden d. MA(q): Componente de media móvil de orden q. Seasonal AR(P): Componente autorregresivo estacional de orden P. Seasonal I(D): Componente integrado estacional de orden D. MA(Q): Componente de media móvil estacional de orden Q. s: Periodo estacional.

Para la serie de tiempo del precio de la leche en el Cesar entre los años de estudio se ajusta un modelo SARIMA para comprobar si se ajusta de mejor manera:

## Series: ts_precio 
## ARIMA(1,1,2)(1,0,0)[12] 
## 
## Coefficients:
##          ar1      ma1     ma2    sar1
##       0.6241  -0.5305  0.3821  0.1499
## s.e.  0.0954   0.0993  0.0706  0.0715
## 
## sigma^2 = 1091:  log likelihood = -1025.88
## AIC=2061.76   AICc=2062.06   BIC=2078.47

El segundo modelo ajustado para la serie de precios de leche cruda en el Cesar corresponde a un ARIMA(1,1,2)(1,0,0)[12], lo cual indica que la serie requirió una diferenciación no estacional para lograr estacionariedad, mientras que la parte estacional no requirió diferenciación adicional.

En este modelo intervienen tres componentes principales:

Componente AR(1) no estacional:
El coeficiente estimado es 0.6241. Esto implica que la dinámica del precio depende positivamente de su propio comportamiento reciente. En términos prácticos, aumentos o disminuciones recientes tienden a continuar en la misma dirección.
Componentes MA(1) y MA(2) no estacionales:
Los coeficientes estimados son -0.5305 y 0.3821, respectivamente. Estos representan ajustes correctivos derivados de los choques recientes en la serie. La combinación indica que, aunque existe persistencia en las variaciones del precio, parte del comportamiento inmediato responde a correcciones asociadas a errores pasados.
Componente AR estacional de orden 1 con periodo 12:
El coeficiente estacional estimado es 0.1499. Esto sugiere que existe una dependencia positiva aunque moderada entre el precio actual y el precio observado 12 periodos antes, lo cual refleja un patrón de comportamiento anual.

Ecuación del modelo ARIMA(1,1,2)(1,0,0)[12]

La forma general del modelo es: \[ (1 - \phi_1 B) (1 - \Phi_1 B^{12}) (1-B) Y_t = (1 + \theta_1 B + \theta_2 B^2) \epsilon_t \]

Expandiendo el lado izquierdo (AR y Diferenciación) e introduciendo los coeficientes:

\[ (1 - 0.6241 B - 0.1499 B^{12} + 0.0935 B^{13}) (1-B) Y_t = (1 - 0.5305 B + 0.3821 B^2) \epsilon_t \]

Expandiendo la Diferenciación:

\[ (1 - B - 0.6241 B + 0.6241 B^2 - 0.1499 B^{12} + 0.1499 B^{13} + 0.0935 B^{13} - 0.0935 B^{14}) Y_t = (1 - 0.5305 B + 0.3821 B^2) \epsilon_t \]

Agrupando términos:

\[ (1 - 1.6241 B + 0.6241 B^2 - 0.1499 B^{12} + 0.2434 B^{13} - 0.0935 B^{14}) Y_t = (1 - 0.5305 B + 0.3821 B^2) \epsilon_t \]

Ecuación Despejada en Términos de $Y_t$ y $\epsilon_t$

Finalmente, pasamos todos los términos rezagados de $Y_t$ al lado derecho de la ecuación para obtener una expresión que se asemeja a un modelo de regresión:

\[ Y_t = 1.6241 Y_{t-1} - 0.6241 Y_{t-2} + 0.1499 Y_{t-12} - 0.2434 Y_{t-13} + 0.0935 Y_{t-14} + \epsilon_t - 0.5305 \epsilon_{t-1} + 0.3821 \epsilon_{t-2} \]

A corto plazo, el modelo indica que el precio se mantendrá estable, con ligeras fluctuaciones.

A largo plazo, el modelo reconoce la incertidumbre en la serie, lo que amplia los rangos de predicción.

De acuerdo con el modelo, no se anticipa un comportamiento drástico ni una tendencia clara al alza o a la baja.

Los residuos del modelo SARIMA(1,1,2)(1,0,0)[12] se comportan de manera aleatoria cerca de cero, sin tendencias claras ni patrones evidentes. La variabilidad es razonablemente constante y presenta solo algunos valores atípicos. Esto parece indicar que el modelo ha capturado de forma adecuada las características temporales de la serie, y que los residuos se asemejan a ruido blanco. Por lo tanto, el ajuste del modelo parece ser apropiado.

Los residuos del modelo exhiben un comportamiento en gran parte aleatorio en torno al valor cero, sin patrones temporales aparentes, lo que sugiere que el modelo ha logrado capturar la estructura principal de la serie temporal. Las funciones de autocorrelación (ACF) y autocorrelación parcial (PACF) de los residuos permanecen dentro de los límites de significancia, lo que implica la ausencia de autocorrelación y, por lo tanto, de dependencias temporales no modeladas. No obstante, el gráfico Q-Q muestra cierta desviación de la normalidad en las colas, lo que indica que los residuos no siguen una distribución perfectamente normal. Esta desviación, sin embargo, no necesariamente invalida el modelo, siempre y cuando la autocorrelación esté controlada de forma adecuada.

## 
##  KPSS Test for Level Stationarity
## 
## data:  a
## KPSS Level = 0.07591, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  a
## X-squared = 9.4373, df = 12, p-value = 0.6652

## 
##  Shapiro-Wilk normality test
## 
## data:  a
## W = 0.96606, p-value = 6.176e-05

De acuerdo con la prueba KPSS, los resultados sugieren que la serie es estacionaria (p-valor > 0.05 , no se rechaza la hipótesis nula de estacionariedad). La prueba de Box-Ljung también indica que no hay autocorrelación importante (valor p > 0.05, lo que sugiere que no se rechaza la independencia). En resumen, la serie, o los residuos examinados, se comporta de manera similar al ruido blanco en los retrasos evaluados, lo que significa que es estacionaria y no muestra autocorrelación.

H₀ (Hipótesis nula): La serie no presenta autocorrelación significativa hasta el rezago especificado; es decir, los datos son consistentes con un proceso de ruido blanco.
H₁ (Hipótesis alternativa): La serie presenta autocorrelación significativa en al menos uno de los rezagos evaluados.

El resultado del test de Shapiro-Wilk indica un valor p inferior a 0.05, lo que lleva a rechazar la hipótesis nula. Por lo tanto, se concluye que, según este test, los residuos del modelo SARIMA(1,1,2)(1,0,0)[12] no presenta una distribución normal.

## Series: ts_precio 
## ARIMA(1,1,2)(0,0,1)[12] 
## 
## Coefficients:
##          ar1      ma1     ma2    sma1
##       0.6198  -0.5261  0.3857  0.1400
## s.e.  0.0946   0.0985  0.0699  0.0698
## 
## sigma^2 = 1093:  log likelihood = -1026.05
## AIC=2062.1   AICc=2062.4   BIC=2078.82

Este modelo combina una parte no estacional ARIMA(1,1,2) con una parte estacional MA(1) de periodo 12.

Los coeficientes estimados son: * $\phi_1$ ($\text{ar1}$) = $0.6198$ * $\theta_1$ ($\text{ma1}$) = $-0.5261$ * $\theta_2$ ($\text{ma2}$) = $0.3857$ * $\Theta_1$ ($\text{sma1}$) = $0.1400$

Ecuación Despejada en Términos de $Y_t$ y $\epsilon_t$

La siguiente ecuación expresa el valor actual de la serie ($Y_t$) como una función de sus valores pasados y los errores pasados, sin usar operadores de retraso ($B$).

\[ Y_t = 1.6198 Y_{t-1} - 0.6198 Y_{t-2} + \epsilon_t - 0.5261 \epsilon_{t-1} + 0.3857 \epsilon_{t-2} + 0.1400 \epsilon_{t-12} - 0.0736 \epsilon_{t-13} + 0.0540 \epsilon_{t-14} \]

Nota sobre la Expansión: Los coeficientes de los términos cruzados como $\epsilon_{t-13}$ y $\epsilon_{t-14}$ resultan de la multiplicación de los polinomios de Media Móvil (MA) no estacional y estacional: \[ \text{MA Total} = (1 - 0.5261 B + 0.3857 B^2) \times (1 + 0.1400 B^{12}) \] El término de $\epsilon_{t-13}$ se obtiene de $(-0.5261 B) \times (0.1400 B^{12}) = -0.0736 B^{13}$.

El modelo SARIMA(1,1,2)(0,0,1)[12] predice que, tras el reciente pico y corrección, el precio de la leche cruda en el Cesar se estabilizará alrededor de 2000 en los próximos tres años. Sin embargo, la amplísima banda de confianza indica que hay un alto grado de riesgo e incertidumbre asociado a esta predicción, lo cual es crucial para la toma de decisiones.

El gráfico de residuos sugiere que el modelo SARIMA(1,1,2)(0,0,1)[12] es adecuado en términos de capturar la estructura de dependencia lineal (ARIMA) y dejar un proceso residual que es en gran medida ruido blanco.

par(mfrow=c(2,2))
plot(res_prec_3)
acf(res_prec_3)
pacf(res_prec_3)
qqnorm(res_prec_3)
qqline(res_prec_3)

El modelo SARIMA(1,1,2)(0,0,1)[12] es aceptable porque los residuos son esencialmente ruido blanco (ACF y PACF pasan la prueba). Sin embargo, presenta dos problemas de diagnóstico:

Heterocedasticidad (Varianza no constante): La volatilidad de los errores es mayor en los últimos años.

No Normalidad (Colas pesadas): Los errores extremos son más frecuentes de lo esperado.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_prec_3
## KPSS Level = 0.080004, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  res_prec_3
## X-squared = 10.036, df = 12, p-value = 0.6128

## 
##  Shapiro-Wilk normality test
## 
## data:  res_prec_3
## W = 0.96659, p-value = 7.142e-05

El modelo SARIMA(1,1,2)(0,0,1)[12] es estadísticamente robusto en lo que respecta a la estructura de la serie de tiempo:

Es Estacionario (KPSS).

No tiene Autocorrelación (Box-Ljung, es Ruido Blanco).

Sin embargo, el modelo falla el supuesto de normalidad (Shapiro-Wilk),

Comparación de los modelos ARIMA de precios de leche cruda en el Cesar
Modelo	AIC	BIC	KPSS_p	LjungBox_p	Normalidad_p
ARIMA(1,1,2)	2064.107	2077.477	0.1	0.34161	5e-05
SARIMA(1,1,2)(1,0,0)[12]	2061.761	2078.472	0.1	0.85357	6e-05
SARIMA(1,1,2)(0,0,1)[12]	2062.104	2078.816	0.1	0.81746	7e-05

El SARIMA(1,1,2)(1,0,0)[12] es el mejor modelo de la lista.Tiene el AIC más bajo (mejor ajuste con menor penalización).Tiene el $p\text{-value}$ de Ljung-Box más alto (residuos más cercanos al ruido blanco).Cumple con los supuestos críticos de estacionariedad y ruido blanco.

# 1) Auto ARIMA para ts_volumen (serie estacionaria -> d = 1)
auto_vol1 <- auto.arima(ts_volumen,
                       d = 1,    
                       D = 0,# la serie ya es estacionaria
                       seasonal = FALSE,     # sin componente estacional
                       stepwise = FALSE,     # búsqueda exhaustiva (más lenta)
                       approximation = FALSE,
                       )         

auto_vol1

## Series: ts_volumen 
## ARIMA(4,1,1) 
## 
## Coefficients:
##          ar1     ar2      ar3      ar4      ma1
##       0.8113  0.0514  -0.1689  -0.1901  -0.9051
## s.e.  0.0760  0.0902   0.0902   0.0760   0.0391
## 
## sigma^2 = 3.357e+12:  log likelihood = -3308.9
## AIC=6629.79   AICc=6630.21   BIC=6649.85

La función auto.arima encontró el modelo que mejor se ajustaba con d = 1 y sin estacionalidad: el ARIMA(4, 1, 1).

p = 4: Tiene un componente autorregresivo de orden 4, o AR(4).
d = 1: Incluye diferenciación no estacional.
q = 1: Tiene un componente de media móvil de orden 1, o MA(1).

\[ Y_t = Y_{t-1} + 0.8113(Y_{t-1} - Y_{t-2}) + 0.0514(Y_{t-2} - Y_{t-3}) - 0.1689(Y_{t-3} - Y_{t-4}) - 0.1901(Y_{t-4} - Y_{t-5}) + \varepsilon_t - 0.9051\varepsilon_{t-1} \] Sustituyendo los coeficientes estimados:

\[ Y_t = 1.8113Y_{t-1} - 0.7599Y_{t-2} - 0.2203Y_{t-3} + 0.0212Y_{t-4} + 0.1901Y_{t-5} + \varepsilon_t - 0.9051\varepsilon_{t-1} \]

El modelo ARIMA(4,1,1) sugiere que el volumen de leche cruda se estabilizará alrededor de $10$ millones de litros.El principal problema de este modelo es la especificación: El gráfico histórico muestra una clara estacionalidad (patrones anuales repetidos) que el modelo ARIMA(4,1,1) no incluye.

El gráfico de residuos sugiere que el modelo ARIMA(4,1,1) ha hecho un buen trabajo al eliminar la tendencia.

Sin embargo, para confirmar la adecuación del modelo y validar si la estacionalidad (que claramente existía en el volumen) se ha ignorado y si la autocorrelación residual es significativa, es absolutamente necesario examinar los gráficos ACF y PACF de estos residuos. Si el modelo ha ignorado la estacionalidad, veremos un pico significativo en el rezago 12 de los gráficos ACF/PACF.

El modelo ARIMA(4,1,1) es inadecuado para pronosticar el volumen de leche cruda.

Fallo Principal: La presencia de un pico significativo en el rezago 12 del ACF demuestra que el modelo no capturó la estacionalidad anual (esto es evidente en el gráfico de la serie original).

Problemas Secundarios: También existen problemas de heterocedasticidad y no normalidad.

## 
##  KPSS Test for Level Stationarity
## 
## data:  arima2
## KPSS Level = 0.043552, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  arima2
## X-squared = 26.484, df = 10, p-value = 0.003141

## 
##  Shapiro-Wilk normality test
## 
## data:  arima2
## W = 0.92042, p-value = 3.222e-09

El modelo ARIMA(4,1,1) es inaceptable para el pronóstico del volumen de leche cruda, ya que viola el supuesto más importante:

Fallo Principal: El resultado del Box-Ljung test (p-value muy bajo) confirma que el modelo no ha capturado la estacionalidad de la serie original.

## Series: ts_volumen 
## ARIMA(0,1,1)(1,1,1)[12] 
## 
## Coefficients:
##           ma1     sar1     sma1
##       -0.2525  -0.1799  -0.6840
## s.e.   0.0829   0.0975   0.0776
## 
## sigma^2 = 2.825e+12:  log likelihood = -3107.38
## AIC=6222.75   AICc=6222.96   BIC=6235.89

modelo SARIMA(0,1,1)(1,1,1)[12]

Este modelo es el resultado de incluir la diferenciación estacional ($D=1$) y componentes AR/MA para capturar la estacionalidad del volumen.

Los coeficientes estimados son: * $\theta_1$ ($\text{ma1}$) = $-0.2525$ * $\Phi_1$ ($\text{sar1}$) = $-0.1799$ * $\Theta_1$ ($\text{sma1}$) = $-0.6840$

Ecuación en Notación de Operadores de Retraso

La forma general del modelo es: \[ (1 - \Phi_1 B^{12}) (1-B) (1-B^{12}) Y_t = (1 + \theta_1 B) (1 + \Theta_1 B^{12}) \epsilon_t \]

Sustituyendo los coeficientes: \[ (1 - (-0.1799) B^{12}) (1-B) (1-B^{12}) Y_t = (1 + (-0.2525) B) (1 + (-0.6840) B^{12}) \epsilon_t \]

Simplificando los signos: \[ (1 + 0.1799 B^{12}) (1-B) (1-B^{12}) Y_t = (1 - 0.2525 B) (1 - 0.6840 B^{12}) \epsilon_t \]

Ecuación Despejada en Términos de $Y_t$ y $\epsilon_t$

Expandiendo todos los polinomios y despejando $Y_t$ se obtiene:

\[ \begin{aligned} Y_t =& Y_{t-1} + 0.8201Y_{t-12} -0.8201 Y_{t-13} + 0.1799 Y_{t-24} - 0.1799 Y_{t-25} \\ &+ \epsilon_t - 0.2525 \epsilon_{t-1} - 0.6840 \epsilon_{t-12} + 0.1727 \epsilon_{t-13} \end{aligned} \]

La previsión es que el volumen continuará con su patrón cíclico en los niveles actuales, pero la incertidumbre a largo plazo es inaceptablemente alta. El modelo, a pesar de capturar la estacionalidad, no puede predecir el volumen con precisión a largo plazo. Esto podría deberse a la alta volatilidad histórica y la disminución de la media a lo largo de los años, que hacen que la serie sea difícil de modelar.

Los residuos del modelo de la serie de tiempo del volumen de la leche en el Cesa exhiben un comportamiento oscilatorio pronunciado, caracterizado por fluctuaciones considerables. No se observa una tendencia definida, y el nivel de ruido es apreciablemente alto, aunque las variaciones se mantienen dentro de un rango relativamente estable a lo largo del periodo analizado.

La previsión puntual (la línea central azul en tu gráfico de pronóstico) es robusta. Sin embargo, los intervalos de confianza (la banda azul) pueden ser inexactos o subestimar el verdadero riesgo de los precios extremos debido a la falta de normalidad y la varianza cambiante.

## 
##  KPSS Test for Level Stationarity
## 
## data:  b
## KPSS Level = 0.021754, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  b
## X-squared = 25.478, df = 14, p-value = 0.03013

## 
##  Shapiro-Wilk normality test
## 
## data:  b
## W = 0.95647, p-value = 5.087e-06

Estacionariedad (KPSS Test, $p=0.1$): El modelo cumple con este supuesto. La diferenciación ($d=1$) fue suficiente para estabilizar la media.Ruido Blanco (ACF/PACF, Ljung-Box): Visualmente, el ACF/PACF muestra que no queda autocorrelación significativa residuals]. Sin embargo, la prueba formal Box-Ljung test da un $\mathbf{p-value = 0.03013}$ (para 14 grados de libertad). Dado que $0.03013 < 0.05$, formalmente se rechaza la hipótesis de ruido blanco.

No Normalidad (Shapiro-Wilk Test): El $\mathbf{p-value = 5.087\text{e-}06}$ es extremadamente bajo. Los residuos no son normales. El Q-Q plot confirma que las colas (valores extremos) se desvían de la normalidad.

## Series: ts_volumen 
## ARIMA(1,0,0)(2,1,1)[12] with drift 
## 
## Coefficients:
##          ar1     sar1    sar2     sma1      drift
##       0.7323  -0.1816  0.0150  -0.7111  -42726.29
## s.e.  0.0488   0.1196  0.1056   0.0960   10275.75
## 
## sigma^2 = 2.573e+12:  log likelihood = -3113.64
## AIC=6239.27   AICc=6239.71   BIC=6259

Este modelo se ajustó a la serie de volumen ($\text{ts\_volumen}$) e incluye una diferenciación estacional ($D=1$) y una deriva (drift) ($\delta$), lo que captura la tendencia de cambio constante de la serie.

Coeficientes Clave * $\text{ar1}$ ($\phi_1$) = $0.7323$ * $\text{sar1}$ ($\Phi_1$) = $-0.1816$ * $\text{sar2}$ ($\Phi_2$) = $0.0150$ * $\text{sma1}$ ($\Theta_1$) = $-0.7111$ * $\text{drift}$ ($\delta$) = $-42726.29$

Ecuación Final Despejada en Términos de $Y_t$ y $\epsilon_t$

La siguiente ecuación expresa el volumen actual ($Y_t$) como la suma de la deriva y una combinación lineal de valores pasados de volumen ($Y_{t-k}$) y errores pasados ($\epsilon_{t-k}$).

\[ \begin{aligned} Y_t =& \ \mathbf{42726.29} \\ &+ 0.7323 Y_{t-1} + 0.8184 Y_{t-12} - 0.5993 Y_{t-13} \\ &+ 0.1966 Y_{t-24} - 0.1440 Y_{t-25} - 0.0150 Y_{t-36} + 0.0110 Y_{t-37} \\ &+ \epsilon_t - 0.7111 \epsilon_{t-12} \end{aligned} \]

El pronóstico a 36 meses del volumen de leche cruda ] utilizando el modelo SARIMA(1,0,0)(2,1,1)[12] es estructuralmente válido, ya que la línea azul central captura correctamente la fuerte estacionalidad anual presente en el histórico de la serie, indicando que el volumen continuará su patrón cíclico pero en los niveles bajos actuales.

Existe heterocedasticidad (varianza no constante) en los residuos. El modelo fue menos preciso para predecir el volumen en los periodos de mayor volatilidad al inicio de la serie.

Los residuos no siguen una distribución perfectamente normal. La desviación sugiere la presencia de colas pesadas (heavy tails), donde los errores extremos (picos de volumen) son más probables de lo que la distribución normal predice

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_vol3
## KPSS Level = 0.076736, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  res_vol3
## X-squared = 20.835, df = 14, p-value = 0.1059

## 
##  Shapiro-Wilk normality test
## 
## data:  res_vol3
## W = 0.95614, p-value = 4.697e-06

El modelo SARIMA(1,0,0)(2,1,1)[12] con drift para el volumen de leche cruda es estadísticamente válido y bien especificado para la predicción de la media debido a que cumple con los requisitos esenciales de estacionariedad y ruido blanco.

Sin embargo, el modelo presenta un fallo en el supuesto de normalidad y evidencia de heterocedasticidad (varianza no constante), lo que impacta directamente en la precisión de los amplios intervalos de confianza del pronóstico.

Comparación de los modelos ARIMA de volumen de leche cruda en el Cesar
Modelo	AIC	BIC	KPSS_p	LjungBox_p	Normalidad_p
ARIMA(4,1,1)	6629.793	6649.847	0.1	0.03324	0e+00
SARIMA(0,1,1)(1,1,1)[12]	6222.755	6235.887	0.1	0.04388	1e-05
SARIMA(1,0,0)(2,1,1)[12]	6239.271	6259.001	0.1	0.14218	0e+00

El modelo SARIMA(0,1,1)(1,1,1)[12] tiene el mejor ajuste (AIC), pero el SARIMA(1,0,0)(2,1,1)[12] es el más adecuado para el pronóstico porque cumple formalmente con el supuesto de Ruido Blanco ($\text{LjungBox\_p} = 0.14218$), que es el requisito más importante para la validez de los intervalos de confianza en series de tiempo.Todos los modelos fallan rotundamente en el supuesto de Normalidad ($\text{Normalidad\_p} \approx 0$), confirmando la presencia de colas pesadas o heterocedasticidad en la serie de volumen.

Problemas a resolver

Precio de leche en el cesar

Como se nota en la serie, el precio de la leche cruda mostró un desarrollo moderado y estable hasta 2019, acorde con la trayectoria histórica del mercado lácteo colombiano, caracterizado por alzas graduales ajustadas por inflación y costos (DANE, 2022). Desde 2020, la pendiente cambió de forma abrupta, con aumentos acelerados que alcanzaron su punto máximo a mediados de 2023, cuando el precio superó los 2.400 COP por litro, casi el doble del valor previo a la pandemia.

Este hecho concuerda con lo reportado por la Federación Colombiana de Ganaderos (FEDEGÁN), que registró una baja en la producción nacional durante ese tiempo debido a factores como el clima, el alza de los costos de los insumos, la poca disponibilidad de alimentos concentrados y las dificultades logísticas causadas por la pandemia (FEDEGÁN, 2023). Aparte, estudios de la Cámara Gremial de la Leche indicaron que la importación de lactosueros baratos causó distorsiones en el mercado, bajando la demanda de leche fresca y alterando la estabilidad de los precios pagados al productor en varias regiones del país (Andi–CGL, 2023).

El Ministerio de Agricultura informó que en 2021 y 2022 hubo una baja temporal en la oferta interna de leche, debido a la sequía en zonas ganaderas, el alza en los costos de los insumos importados y el aumento del precio del concentrado por la crisis internacional de granos (MinAgricultura, 2022). Esto coincide con el punto de inflexión visible en la serie, donde el precio empieza a subir rápidamente.

El repunte entre 2022 y 2023 también se ha relacionado con la mayor demanda de lácteos en el mercado interno y con ajustes en la fórmula oficial de precios que subieron la bonificación pagada al productor (SIPSA, 2023). Tras el pico de 2023, la serie muestra una caída importante seguida de una recuperación parcial hacia 2025, lo cual es acorde con la normalización gradual del mercado y la corrección de algunos desequilibrios de oferta y demanda.

En conclusión, el comportamiento del precio de la leche en el Cesar entre 2020 y 2023 no fue un hecho aislado, sino el resultado de choques simultáneos en costos, oferta y condiciones del mercado nacional, ampliamente documentados en informes gremiales y gubernamentales.

Volumen de leche en el Cesar

Tal como se aprecia en la serie de datos, el volumen comercializado ha mostrado una tendencia descendente desde 2010, a pesar de la estacionalidad ligada a los ciclos de producción durante las épocas de lluvia y sequía. Este patrón se alinea con lo reportado por la Federación Colombiana de Ganaderos, que señala que en la última década la producción ganadera en varias regiones del Caribe ha afrontado sequías extendidas, degradación de pastos, un aumento en los costos de los insumos y una mayor presión sobre la rentabilidad del productor (FEDEGÁN, 2023). Estos factores inciden de manera directa en la disponibilidad de leche cruda, lo cual concuerda con la baja constante en el volumen registrado en el Cesar.

Por otra parte, informes oficiales del Ministerio de Agricultura indican que la región Caribe ha sido una de las más perjudicadas por los impactos del fenómeno de El Niño, que reduce la oferta de forraje de manera drástica y fuerza a muchos productores a reducir sus hatos o vender animales, lo que genera caídas notables en la producción (MinAgricultura, 2022). Esto da explicación a varios tramos de la serie donde se observan mínimos repentinos, sobre todo en periodos relacionados con eventos climáticos intensos.

La Cámara Gremial de la Leche y varios análisis sectoriales han advertido sobre otro factor clave: el aumento de las importaciones de leche en polvo y lactosueros, que ejercen presión en el mercado nacional y disminuyen los incentivos para la compra de leche fresca a productores locales (ANDI–CGL, 2023). Esto ha provocado el desplazamiento de la producción nacional y ha motivado a empresas procesadoras a recurrir a insumos importados más baratos, lo que afecta el volumen comercializado en regiones como el Cesar.

El DANE (2023) indica que los costos de los insumos agropecuarios han subido de forma importante en los últimos años, lo que reduce la rentabilidad del productor de leche y lleva a muchos ganaderos a cambiar o dejar la actividad lechera, lo cual es congruente con el descenso gradual observado en la serie a partir de 2015.

En conjunto, la evidencia estadística y documental sugiere que la caída en el volumen de leche comercializada en el Cesar es resultado de factores arraigados y duraderos, más que de cambios temporales, lo que hace de este problema un elemento central para los análisis de sostenibilidad del sector lácteo regional.

Segunda Parte

## # A tibble: 6 × 3
##   MES                   Carbon `Petroleo-derivados`
##   <dttm>                 <dbl>                <dbl>
## 1 1992-01-01 00:00:00 1085408.             1327509.
## 2 1992-03-01 00:00:00  324415.             1349665.
## 3 1992-05-01 00:00:00  963402.             1128888.
## 4 1992-07-01 00:00:00 1645281.             1165882.
## 5 1992-09-01 00:00:00 1390825.             1030560.
## 6 1992-11-01 00:00:00 1562868.              474294.

Descripción de los datos

En este estudio, se emplearon los datos mensuales de exportación (en toneladas) de carbón, petróleo y sus derivados, datos recopilados por el DANE en su módulo de Comercio Internacional. Los datos, abarcan desde 1992 hasta 2025, según la información oficial disponible. Las exportaciones de carbón se refieren al grupo CUCI 32, mientras que las de petróleo y derivados corresponden a los códigos CUCI 33 y 34. Estos datos, originados de las declaraciones aduaneras consolidadas por la DIAN, reflejan las variaciones típicas de los mercados internacionales de energía, y evidencian tendencias, estacionalidad potencial y periodos de alta volatilidad.

Ballesteros Álvarez y Lafont González (2008) indican que el comportamiento exportador del carbón colombiano se ha visto afectado por variables externas. Entre ellas se encuentran el precio internacional del carbón, la tasa de cambio, la demanda global y los precios de energéticos sustitutos como el petróleo y el gas natural. El análisis econométrico de estos factores revela que la minería del carbón en Colombia es muy sensible a cambios externos, lo que produce inestabilidad en sus ingresos y previsiones.

La dependencia del petróleo se dificulta cada vez más por la disminución de las reservas probadas y la poca exploración. Informes recientes señalan que el índice de reemplazo de las reservas es bajo, lo cual podría poner en riesgo la autosuficiencia energética en el futuro (Más Colombia, 2024). La menor exploración de nuevos pozos podría limitar los ingresos petroleros a mediano y largo plazo si estas tendencias no cambian (Escuela ESGEP, 2025).

Análisis descriptivo

##       MES                          Carbon         Petroleo-derivados
##  Min.   :1992-01-01 00:00:00   Min.   :  321949   Min.   : 474294   
##  1st Qu.:2000-05-24 06:00:00   1st Qu.: 2482146   1st Qu.:1559878   
##  Median :2008-10-16 12:00:00   Median : 4736673   Median :2320009   
##  Mean   :2008-10-15 20:11:52   Mean   : 4633591   Mean   :2388234   
##  3rd Qu.:2017-03-08 18:00:00   3rd Qu.: 6258460   3rd Qu.:3166602   
##  Max.   :2025-08-01 00:00:00   Max.   :14736902   Max.   :4593090

El carbón muestra un nivel de exportaciones moderado–alto en promedio: alrededor de 4.6 millones de toneladas mensuales. La mediana (4.73 M) y la media (4.63 M) están muy cercanas, la distribución no presenta asimetrías fuertes. El valor máximo (14.7 M), que triplica el promedio, sugiere la existencia de meses atípicos con altas exportaciones, posiblemente por picos de demanda. La diferencia entre el tercer y primer cuartil (Q3 = 6.25 M, Q1 = 2.48 M) manifiesta una variabilidad considerable.

Las exportaciones de petróleo y sus derivados promedian cerca de 2.38 millones de toneladas, casi la mitad del valor promedio del carbón. La mediana (2.32 M) es muy parecida al promedio, lo que sugiere una distribución simétrica. El valor máximo (4.59 M) casi duplica el promedio, lo que indica meses con exportaciones particularmente altas. El rango intercuartílico (1.55 M – 3.16 M) apunta a una variabilidad moderada, inferior a la observada en las exportaciones de carbón.

Los datos indican que el carbón y los derivados del petróleo muestran exportaciones importantes y variabilidad dada la naturaleza del sector minero-energético en Colombia. El carbón tiene exportaciones más altas y mayor volatilidad, mientras que los derivados del petróleo muestran un comportamiento más estable.

Exportación del carbón en toneladas

## Varianza: 6.127802e+12

## Desviación estándar: 2475440

## Coeficiente de variación: 53.42 %

Como se suponía, las exportaciones de carbón exhiben una gran variabilidad, evidenciada por una desviación estándar de aproximadamente 2.5 millones de toneladas y un coeficiente de variación superior al 50%. Esto sugiere que la serie temporal es muy volátil, con fluctuaciones notables entre periodos de exportación altos y bajos. Por lo tanto, el volumen de carbón exportado varía considerablemente, lo cual podría tener consecuencias importantes para su modelado en series de tiempo.

El histograma con la curva de densidad muestra que la distribución de las exportaciones de carbón no es normal, sino que presenta una estructura claramente bimodal, con un primer grupo concentrado entre 2 y 3 millones de toneladas y un segundo grupo entre 5 y 6 millones. Además, la distribución presenta un sesgo positivo debido a meses con exportaciones excepcionalmente altas (10–14 millones).

##   Distribucion      AIC      BIC
## 1       Normal 13044.82 13052.82
## 2   Log-normal 13062.19 13070.20

La distribución normal presenta valores inferiores de AIC y BIC, lo cual sugiere que, de acuerdo con ambos criterios, es el modelo con el mejor ajuste. A pesar de que la representación visual de la exportación de carbón sugiere cierta asimetría, el modelo normal exhibe un mejor rendimiento desde una perspectiva estadística.

Distribución normal:

Densidad empírica contra teórica

La curva teórica (en rojo) se aproxima bastante bien al histograma.Sin embargo, se nota que en los valores altos (cola derecha), la Normal tiende a subestimar los valores extremos.También hay una pequeña desviación en la parte baja.

Gráfico Q-Q

Las observaciones se alinean con la línea diagonal en los niveles medios.Pero en las colas, sobre todo en la derecha, las observaciones se desvían notablemente, lo que indica asimetría.Esto indica que la Normal no representa bien los valores extremos.

CDF empírica contra teórica

El ajuste es aceptable en la parte central. Las diferencias en las colas siguen mostrando que los valores extremos no se ajustan bien.

Gráfico P–P

La curva se mantiene cerca de la diagonal, lo que sugiere un ajuste adecuado. Pero, otra vez, hay desviaciones en los extremos.

En conclusión, la Normal se ajusta bien en la parte central, pero no es buena para representar las colas.

Distribución log-normal:

Densidad

La distribución log-normal busca representar mejor la cola derecha extendida.No obstante, tiende a sobreestimar la densidad en valores medios.En general, su ajuste es inferior al de la distribución normal.

QQ-plot

Se aprecia una discrepancia visual mucho mayor que con la normal. La curvatura pronunciada indica un ajuste deficiente.

CDF y P–P

La log-normal se desvía más de la línea teórica. La desviación es mayor en todo el rango de valores, sobre todo en la parte inferior.

La distribución log-normal no se ajusta bien a los datos, mostrando mayor curvatura y discrepancias tanto en las colas como en el centro.

Aunque se tenga un ajuste mejor con una distribución normal, no se evidencia estadísticamente como una distribución que modele de la mejor manera los datos, por eso se piensa ajustar una distribución de mezclas de 2 lognormales.

## number of iterations= 63

## === Métricas del modelo de mezcla Lognormal (k=2) ===

## Log-Likelihood: -350.155

## AIC: 710.311

## BIC: 730.318

## === Métricas del modelo de mezcla Normal (k=2) ===

## Log-Likelihood: -6490.666

## AIC: 12991.33

## BIC: 13011.34

El modelo de Mezcla de Dos Lognormales (k=2) suele ser el más adecuado para datos de carbón. La evidencia en las tres métricas favorece esta elección: la transformación logarítmica de los datos (bajo el supuesto de una distribución Lognormal) genera un ajuste muy superior en comparación con asumir una distribución Normal para modelar los dos componentes. Esto indica que los datos de carbón presentan una asimetría marcada y valores positivos, lo cual es una característica común de la distribución Lognormal.

Los gráficos apoyan la conclusión numérica obtenida del AIC y BIC: la mezcla Lognormal con k=2 componentes es el modelo que mejor describe la distribución de las exportaciones de carbón. El modelo Lognormal es mejor para series económicas asimétricas y con límite inferior en cero (datos positivos), lo que resulta en una curva de densidad que se asemeja más a la forma empírica.

El diagrama de caja de la distribución de la exportación de carbón en Colombia muestra una asimetría marcada, con la mayor parte de los datos concentrados en valores bajos. Sobresalen valores atípicos por encima de los 12 millones de toneladas, lo que confirma una asimetría positiva (a la derecha). Esto sugiere que, si bien la mayoría de las exportaciones se encuentran en un rango bajo a moderado, existen casos aislados con volúmenes de exportación inusualmente elevados.

Desde los años 90 hasta aproximadamente 2015, las exportaciones de carbón experimentaron un crecimiento constante. A lo largo de este período, se aprecia una notable inestabilidad, con picos y caídas pronunciadas. El nivel máximo histórico de exportaciones se registró entre 2013 y 2019. No obstante, a partir de 2020, se observa una disminución marcada y una mayor inestabilidad. Esto se relaciona probablemente con los impactos de la pandemia, los cambios en la demanda global y la transición energética. En resumen, la serie temporal sugiere un comportamiento cíclico y volátil, con una tendencia reciente a la baja.

Exportación del petroleo y sus derivados en toneladas

## Varianza: 907650403086

## Desviación estándar: 952706.9

## Coeficiente de variación: 39.89 %

Las exportaciones de petróleo y sus derivados muestran una dispersión relevante, con fluctuaciones considerables cada mes. El coeficiente de variación, que se ubica en 39.89%, sugiere una variabilidad de moderada a alta.

El análisis de la distribución de las exportaciones de petróleo revela una asimetría pronunciada hacia la derecha, junto con una alta variabilidad y la presencia de múltiples picos. Esto sugiere la existencia de diferentes dinámicas en las exportaciones a lo largo del tiempo. Si bien la mayoría de los meses se concentran en un rango de exportación de entre 1 y 3 millones de toneladas, se observan casos aislados con volúmenes de exportación considerablemente superiores. Esta configuración apunta a que la distribución no sigue una normal.

##   Distribucion      AIC      BIC
## 1       Normal 13044.82 13052.82
## 2   Log-normal 13062.19 13070.20

A pesar de que el AIC y BIC (criterios de información) favorecen la Distribución Normal por un margen pequeño, los gráficos Q-Q sugieren que ninguna de las dos distribuciones simples (Normal o Log-normal) es un ajuste perfecto para los datos de “Petroleo-derivados”, ya que ambas muestran desviaciones notables en las colas.No obstante, la Distribución Normal ofrece el mejor ajuste entre estas dos opciones simples según los criterios numéricos (AIC/BIC) y presenta menos desviación sistemática en los gráficos Q-Q que la Log-normal. Esto contrasta con los análisis de Mezclas (Mclust) anteriores, donde las Mezclas Lognormales eran superiores. Este resultado implica que la suposición de una sola distribución es mejor modelada por la Normal, mientras que la suposición de múltiples grupos (mezcla) es mejor modelada con distribuciones Lognormales.

## ---------------------------------------------------- 
## Gaussian finite mixture model fitted by EM algorithm 
## ---------------------------------------------------- 
## 
## Mclust V (univariate, unequal variance) model with 2 components: 
## 
##  log-likelihood   n df       BIC       ICL
##       -6093.554 404  5 -12217.11 -12287.75
## 
## Clustering table:
##   1   2 
## 170 234

## ---------------------------------------------------- 
## Gaussian finite mixture model fitted by EM algorithm 
## ---------------------------------------------------- 
## 
## Mclust V (univariate, unequal variance) model with 2 components: 
## 
##  log-likelihood   n df       BIC       ICL
##       -201.0686 404  5 -432.1442 -525.0965
## 
## Clustering table:
##   1   2 
## 221 183

##                   Modelo     LogLik        AIC         BIC
## 1    Mezcla Normal (k=2) -6093.5537 12197.1074 -12217.1145
## 2 Mezcla Lognormal (k=2)  -201.0686   412.1371   -432.1442

El modelo de Mezcla de Dos Lognormales Mezcla Lognormal (k=2) se prefiere para modelar datos de petróleo. Esto indica que la distribución de estos datos es asimétrica y positiva, característica que se modela mejor con una distribución Lognormal (o una mezcla de Lognormales) que con una distribución Normal (o una mezcla de Normales).

## ---------------------------------------------------- 
## Gaussian finite mixture model fitted by EM algorithm 
## ---------------------------------------------------- 
## 
## Mclust E (univariate, equal variance) model with 3 components: 
## 
##  log-likelihood   n df       BIC       ICL
##        -6085.99 404  6 -12207.99 -12280.33
## 
## Clustering table:
##   1   2   3 
## 181 124  99

## ---------------------------------------------------- 
## Gaussian finite mixture model fitted by EM algorithm 
## ---------------------------------------------------- 
## 
## Mclust V (univariate, unequal variance) model with 3 components: 
## 
##  log-likelihood   n df       BIC       ICL
##       -190.5214 404  8 -429.0542 -527.3938
## 
## Clustering table:
##   1   2   3 
## 212  89 103

##                   Modelo     LogLik        AIC         BIC
## 1    Mezcla Normal (k=3) -6085.9899 12185.9798 -12207.9883
## 2 Mezcla Lognormal (k=3)  -190.5214   395.0429   -429.0542

De forma similar a la comparación con k=2, el modelo de mezcla de tres lognormales muestra una clara preferencia. Los resultados reafirman que la transformación logarítmica de los datos, al asumir una distribución lognormal, representa de forma más precisa la forma subyacente de la distribución, posiblemente debido a la asimetría marcada de los datos o su restricción a valores positivos.

La exportación de petróleo muestra ciclos de crecimiento que alcanzaron un máximo alrededor de 2015, con cifras cercanas a 4.5 millones de toneladas. Después, hubo una baja pronunciada, seguida de un período de estabilidad con importantes fluctuaciones.

Ambos productos tuvieron un crecimiento fuerte y constante desde aproximadamente 2005 (a excepción del pico más bajo antes del año 2010), llegando a un máximo histórico alrededor de 2015 (con el carbón alcanzando casi 15 millones de toneladas y el petróleo alrededor de 4,5 millones de toneladas). Después de este punto máximo, ambos productos entraron en una fase de declive, estabilizándose en volúmenes más bajos. El carbón se diferencia por una volatilidad mucho mayor durante todo el periodo, mientras que el petróleo mostró una tendencia más suave durante el auge, aunque ambos comparten la misma dinámica de inversión de tendencia después de 2015 hacia una fase de estabilización con alta fluctuación.

Descomposición STL

El análisis STL indica que las exportaciones de carbón muestran una clara estacionalidad anual. Se observa un aumento constante desde 1990 hasta aproximadamente 2016, con una notable caída posterior a 2020. Los residuos señalan alteraciones puntuales relacionadas con sucesos externos.

Además,el comportamiento de la exportación de petróleo y sus derivados en Colombia exhibe una marcada tendencia histórica y un patrón cíclico, con un pico alrededor de 2014, junto con una estacionalidad bien definida y consistente a lo largo de los años.

Prueba de estacionariedad

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_carbon
## KPSS Level = 4.6421, Truncation lag parameter = 5, p-value = 0.01

## 
##  KPSS Test for Level Stationarity
## 
## data:  ts_petroleo
## KPSS Level = 3.8162, Truncation lag parameter = 5, p-value = 0.01

Los resultados de la prueba KPSS muestran que las series de carbón y petróleo exhiben un comportamiento no estacionario.Debido a esto, es preciso aplicar diferenciación u otros métodos de estabilización antes de ajustar modelos de para previsión.

ndiffs(ts_carbon)

## [1] 1

ndiffs(ts_petroleo)

## [1] 1

Las funciones sugieren que tanto el carbón como el petróleo necesitan diferenciación para ser estacionarios, lo que confirma la presencia de tendencias en ambas series. Sin embargo, después de aplicar una diferenciación, se vuelven aptas para el modelado.

## 
##  KPSS Test for Level Stationarity
## 
## data:  diff_carbon
## KPSS Level = 0.04327, Truncation lag parameter = 5, p-value = 0.1

Tras realizar la prueba KPSS y obtener un valor p mayor a 0.05, se puede concluir que la serie temporal es estacionaria. Por lo tanto, es apropiada para ajustar un modelo ARIMA o SARIMA.

diff_petroleo <- diff(ts_petroleo)
kpss.test(diff_petroleo)

## Warning in kpss.test(diff_petroleo): p-value greater than printed p-value

## 
##  KPSS Test for Level Stationarity
## 
## data:  diff_petroleo
## KPSS Level = 0.10407, Truncation lag parameter = 5, p-value = 0.1

El test KPSS aplicado a la serie diff_petroleo arroja un p-value mayor a 0.1, por lo cual no se rechaza la hipótesis nula de estacionariedad. Esto indica que la serie diferenciada del petróleo se comporta como estacionaria, por lo que es adecuada para modelamiento ARIMA o un posible SARIMA.

ACF Y ACFP

par(mfrow = c(1, 2))

Acf(ts_carbon,10)
Pacf(ts_carbon, 10)

Dado que el ACF no decae y el PACF muestra corte a partir del rezago 5, visualmente un posible modelo podría ser un ARIMA(5,1,0).

par(mfrow = c(1, 2))

Acf(ts_petroleo,10)
Pacf(ts_petroleo, 10)

Para la serie del petroleo y sus derivados el ACF exhibe valores elevados en todos los rezagos.No se observa una disminución gradual. El PACF muestra un pico considerable en el rezago 1 y un corte a partir del rezago 5, al igual que la serie anterior, podría tratarse de un posible modelo ARIMA(5,1,0)

par(mfrow = c(1, 2))

Acf(diff_carbon,10)
Pacf(diff_carbon, 10)

En el ACF se observa un pico negativo pronunciado en el retardo 1. El valor negativo alto en el retardo 1 sugiere la presencia notoria de un componente MA(1). El PACF revela un corte a partir del rezago 4. A partir de una diferencia se podría ajustar un posible modelo ARIMA(4,1,1) a la serie del carbón.

par(mfrow = c(1, 2))

Acf(diff_petroleo,10)
Pacf(diff_petroleo, 10)

Para la serie diferenciada del petroleo y sus derivados, se nota un corte despues del desfase 1 en el ACF, y en el correlograma PACF se logra apreciar el corte despues del lag 4, por lo que gráficamente un posible modelo candidato despues de una diferencia sería un ARIMA(4,1,1).

Ajuste de modelos con auto.arima

## Series: ts_carbon 
## ARIMA(0,1,5) 
## 
## Coefficients:
##          ma1     ma2     ma3     ma4      ma5
##       -0.929  0.0035  0.1216  0.0252  -0.1060
## s.e.   0.050  0.0678  0.0722  0.0738   0.0517
## 
## sigma^2 = 2.495e+12:  log likelihood = -6321.98
## AIC=12655.97   AICc=12656.18   BIC=12679.96

Ecuación en Notación de Operadores de Retraso

La forma general del modelo $\text{ARIMA}(0,1,5)$ es: \[ (1-B) Y_t = (1 + \theta_1 B + \theta_2 B^2 + \theta_3 B^3 + \theta_4 B^4 + \theta_5 B^5) \epsilon_t \]

Sustituyendo los coeficientes: \[ (1-B) Y_t = (1 - 0.929 B + 0.0035 B^2 + 0.1216 B^3 + 0.0252 B^4 - 0.1060 B^5) \epsilon_t \]

La ecuación despejada muestra que el valor actual de la serie ($Y_t$) se compone del valor inmediatamente anterior ($Y_{t-1}$) más una combinación lineal de los errores de los últimos cinco periodos ($\epsilon_{t-1}$ a $\epsilon_{t-5}$).

\[ \begin{aligned} Y_t =& Y_{t-1} \\ &+ \epsilon_t - 0.929 \epsilon_{t-1} + 0.0035 \epsilon_{t-2} \\ &+ 0.1216 \epsilon_{t-3} + 0.0252 \epsilon_{t-4} - 0.1060 \epsilon_{t-5} \end{aligned} \]

La enorme amplitud del intervalo refleja la alta volatilidad histórica de la serie. El modelo puede predecir la media futura ($Y_t$), pero es incierto sobre los límites de esa predicción. La falta de términos estacionales en este modelo $\text{ARIMA}(0,1,5)$ también puede contribuir a que la banda no capture adecuadamente la variabilidad cíclica, si esta existiera.

El gráfico de residuos sugiere que el modelo $\text{ARIMA}(0,1,5)$ es adecuado en términos de capturar la media de la serie. Sin embargo, la alta y cambiante volatilidad es una limitación importante que puede hacer que los amplios intervalos de confianza del pronóstico sean inexactos.

El modelo ARIMA(0,1,5) para la exportación de carbón es válido para el pronóstico de la media (la línea azul) porque los residuos cumplen visualmente con el requisito de Ruido Blanco (la estructura de la serie ha sido capturada).

Sin embargo, el pronóstico es limitado en su confiabilidad y precisión debido a dos fallos críticos en los supuestos de inferencia:

Fallo de Varianza (Heterocedasticidad): La volatilidad de los errores cambia con el tiempo.

Fallo de Distribución (No Normalidad): La distribución de los errores no es normal.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_car_1
## KPSS Level = 0.37305, Truncation lag parameter = 5, p-value = 0.08877

## 
##  Box-Ljung test
## 
## data:  res_car_1
## X-squared = 11.017, df = 10, p-value = 0.3562

## 
##  Shapiro-Wilk normality test
## 
## data:  res_car_1
## W = 0.9461, p-value = 5.896e-11

El modelo ARIMA(0,1,5) para la exportación de carbón es estadísticamente válido para realizar pronósticos puntuales de la media, ya que cumple con los requisitos fundamentales de estacionariedad y ruido blanco. Sin embargo, la falta de normalidad es una limitación importante que reduce la precisión de los intervalos de confianza del pronóstico, los cuales se mostraron muy amplios.

## Series: ts_carbon 
## ARIMA(0,1,1)(1,0,0)[12] 
## 
## Coefficients:
##           ma1    sar1
##       -0.8819  0.0856
## s.e.   0.0261  0.0497
## 
## sigma^2 = 2.512e+12:  log likelihood = -6324.85
## AIC=12655.71   AICc=12655.77   BIC=12667.71

Ecuación en Notación de Operadores de Retraso

La forma general del modelo $\text{SARIMA}(0,1,1)(1,0,0)[12]$ es: \[ (1 - \Phi_1 B^{12}) (1-B) Y_t = (1 + \theta_1 B) \epsilon_t \]

Sustituyendo los coeficientes: \[ (1 - 0.0856 B^{12}) (1-B) Y_t = (1 - 0.8819 B) \epsilon_t \]

Ecuación Despejada a $Y_t$

Expandimos el lado izquierdo: $(1 - 0.0856 B^{12}) (1-B) Y_t = (1 - B - 0.0856 B^{12} + 0.0856 B^{13}) Y_t$.

La ecuación despejada para $Y_t$ es:

\[ \begin{aligned} Y_t =& Y_{t-1} + 0.0856 Y_{t-12} - 0.0856 Y_{t-13} \\ &+ \epsilon_t - 0.8819 \epsilon_{t-1} \end{aligned} \]

El modelo SARIMA(0,1,1)(1,0,0)[12] tiene un AIC de $12655.71$, que es marginalmente mejor que el ARIMA(0,1,5) con un AIC de $12655.97$. Sin embargo, la mejora en el pronóstico visual y la reducción de la incertidumbre son insignificantes.

El gráfico de residuos del $\text{SARIMA}(0,1,1)(1,0,0)[12]$ es casi idéntico al gráfico del $\text{ARIMA}(0,1,5)$.Esto es consistente con el hecho de que el AIC solo mejoró marginalmente ($12655.71$ vs $12655.97$), y el pronóstico ] sigue mostrando una banda de confianza extremadamente ancha.El siguiente paso es la validación formal de estos residuos mediante la prueba de Ljung-Box para confirmar si el modelo cumple con el requisito de Ruido Blanco.

Los residuos no son normales. Los errores extremos son más comunes de lo que la distribución normal asume, lo que se debe a la volatilidad cambiante de la serie.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_car2
## KPSS Level = 0.31233, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  res_car2
## X-squared = 15.255, df = 14, p-value = 0.361

## 
##  Shapiro-Wilk normality test
## 
## data:  res_car2
## W = 0.94391, p-value = 3.138e-11

Las pruebas confirman que el modelo SARIMA(0,1,1)(1,0,0)[12] es bien especificado para la estructura de la media (Estacionariedad y Ruido Blanco aceptados). Sin embargo, la falla crítica en la normalidad indica la presencia de Heterocedasticidad (volatilidad no constante), lo que hace que los amplios intervalos de confianza del pronóstico sean poco precisos para estimar el riesgo de la serie.

## Series: ts_carbon 
## ARIMA(0,1,1) 
## 
## Coefficients:
##           ma1
##       -0.8799
## s.e.   0.0247
## 
## sigma^2 = 2.525e+12:  log likelihood = -6326.33
## AIC=12656.66   AICc=12656.69   BIC=12664.66

Ecuación en Notación de Operadores de Retraso

La forma general del modelo $\text{ARIMA}(0,1,1)$ es: \[ (1-B) Y_t = (1 + \theta_1 B) \epsilon_t \]

Sustituyendo el coeficiente: \[ (1-B) Y_t = (1 - 0.8799 B) \epsilon_t \]

Ecuación Despejada a $Y_t$

Expandiendo el lado izquierdo, $(1-B) Y_t = Y_t - Y_{t-1}$.

La ecuación despejada para $Y_t$ es:

\[ Y_t = Y_{t-1} + \epsilon_t - 0.8799 \epsilon_{t-1} \]

La banda de confianza (el área sombreada) es extremadamente amplia y se ensancha considerablemente con el tiempo.

El $\text{ARIMA}(0,1,1)$ es válido en términos de su media, pero la volatilidad no modelada (Heterocedasticidad) es un fallo crítico que afecta la fiabilidad de la estimación del riesgo.

El modelo ARIMA(0,1,1) es una especificación válida para el pronóstico de la media puntual de la serie de Carbón, ya que los residuos satisfacen el requisito de Ruido Blanco.

Sin embargo, debido a la falla de Normalidad y Heterocedasticidad, el pronóstico a 36 meses tendrá intervalos de confianza muy amplios, lo que lo hace poco confiable para la estimación precisa del riesgo futuro.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_car3
## KPSS Level = 0.35005, Truncation lag parameter = 5, p-value = 0.09869

## 
##  Box-Ljung test
## 
## data:  res_car3
## X-squared = 16.862, df = 14, p-value = 0.2636

## 
##  Shapiro-Wilk normality test
## 
## data:  res_car3
## W = 0.94379, p-value = 3.033e-11

El modelo ARIMA(0,1,1) es una especificación estadísticamente válida para predecir la media de la exportación de carbón, ya que cumple con los supuestos fundamentales de estacionariedad y ruido blanco.

Sin embargo, el rechazo crítico de la normalidad confirma la presencia de Heterocedasticidad (varianza no constante).

Comparación de los modelos ARIMA de exportación de carbón en Colombia
Modelo	AIC	BIC	KPSS_p	LjungBox_p
ARIMA(0,1,5)	12655.97	12679.96	0.08877	0.75141
SARIMA(0,1,1)(1,0,0)[12]	12655.71	12667.71	0.10000	0.43321
ARIMA(0,1,1)	12656.66	12664.66	0.09869	0.32717

Los modelos seleccionados para la serie de la exportación de carbón en Colombia cumplen con los requisitos fundamentales de la metodología Box-Jenkins:Estacionariedad (KPSS Test): Todos los modelos generan residuos estacionarios (altos $p\text{-values}$). Esto valida que la diferenciación (no estacional, $d$, o estacional, $D$) fue efectiva para eliminar las tendencias y estacionalidades.Ruido Blanco (Box-Ljung Test): Los modelos $\text{SARIMA}(1,0,0)(2,1,1)[12]$ para Volumen y $\text{SARIMA}(0,1,1)(1,0,0)[12]$ para Carbón muestran residuos que son formalmente Ruido Blanco (altos $p\text{-values}$). Esto significa que han capturado toda la estructura lineal de la serie, haciendo que el pronóstico puntual de la media (línea central azul) sea confiable.Pronósticos Consistentes: Todos los pronósticos muestran una estabilización a largo plazo alrededor de un nivel promedio, lo cual es típico de modelos de tendencia eliminada (diferenciación).

## Series: ts_petroleo 
## ARIMA(1,1,2) 
## 
## Coefficients:
##          ar1      ma1     ma2
##       0.8585  -1.6086  0.6803
## s.e.  0.0798   0.0718  0.0501
## 
## sigma^2 = 6.62e+10:  log likelihood = -5591.31
## AIC=11190.61   AICc=11190.72   BIC=11206.61

El algoritmo auto.arima seleccionó un modelo ARIMA(1,1,2) para la serie ts_petroleo. ## Modelo ARIMA(1,1,2) en términos de $y_t$

El modelo ARIMA(1,1,2) estimado para la serie puede escribirse directamente en términos de la serie original $y_t$. Recordando que la parte de diferenciación implica:

\[ \nabla y_t = y_t - y_{t-1}, \]

y que el modelo ajustado en diferencias es:

\[ \nabla y_t = 0.8858\, \nabla y_{t-1} - 1.6086\, \varepsilon_{t-1} + 0.6803\, \varepsilon_{t-2} + \varepsilon_t, \]

podemos reescribirlo completamente en función de $y_t$:

\[ y_t = (1 + 0.8858)\, y_{t-1} - 0.8858\, y_{t-2} - 1.6086\, \varepsilon_{t-1} + 0.6803\, \varepsilon_{t-2} + \varepsilon_t. \]

Es decir:

\[ y_t = 1.8858\, y_{t-1} - 0.8858\, y_{t-2} - 1.6086\, \varepsilon_{t-1} + 0.6803\, \varepsilon_{t-2} + \varepsilon_t. \]

Este es el modelo ARIMA(1,1,2) expresado directamente sobre la serie original sin utilizar la notación en diferencias.

El modelo $\text{ARIMA}(1,1,2)$ para la exportación de petróleo sigue el patrón de las otras series: válido en la predicción de la media, pero sufre de una limitación crítica en la modelación de la volatilidad, lo que resulta en un pronóstico con una incertidumbre muy alta.

La varianza cambiante de los residuos es el principal problema de especificación del modelo $\text{ARIMA}(1,1,2)$. Esta heterocedasticidad es la causa de que la banda de confianza en el pronóstico sea extremadamente amplia.

El modelo ARIMA(1,1,2) es estadísticamente adecuado para modelar la media de la serie de Petróleo, ya que sus residuos son Ruido Blanco. Sin embargo, la falla de Normalidad es un problema clave que, combinado con la alta volatilidad histórica, resulta en un pronóstico con intervalos de confianza extremadamente amplios.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_pet1
## KPSS Level = 0.13289, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  res_pet1
## X-squared = 22.187, df = 12, p-value = 0.03548

## 
##  Shapiro-Wilk normality test
## 
## data:  res_pet1
## W = 0.99061, p-value = 0.01122

El modelo $\text{ARIMA}(1,1,2)$ para la exportación de petróleo falla en dos supuestos críticos:Falla en Ruido Blanco: Rechazo del Box-Ljung ($\text{p} < 0.05$), lo que significa que se necesita una mejor especificación de los órdenes $p$ y $q$.Falla en Normalidad: Rechazo del Shapiro-Wilk ($\text{p} < 0.05$), lo que significa que el problema de volatilidad es severo.

## Series: ts_petroleo 
## ARIMA(1,1,2)(2,0,0)[12] 
## 
## Coefficients:
##          ar1      ma1     ma2    sar1    sar2
##       0.7276  -1.4731  0.5911  0.1756  0.1323
## s.e.  0.1450   0.1364  0.0921  0.0514  0.0520
## 
## sigma^2 = 6.312e+10:  log likelihood = -5581.12
## AIC=11174.24   AICc=11174.46   BIC=11198.24

Ecuación en Notación de Operadores de Retraso (Forma Factorizada)

\[ (1 - \phi_1 B) (1 - \Phi_1 B^{12} - \Phi_2 B^{24}) (1-B) Y_t = (1 + \theta_1 B + \theta_2 B^2) \epsilon_t \]

Ecuación Despejada a $Y_t$

Para despejar $Y_t$, se expanden los operadores de retraso en el lado izquierdo y se mueve todo lo que no es $Y_t$ al lado derecho de la ecuación.

\[ Y_t = Y_{t-1} + \phi_1 (Y_{t-1} - Y_{t-2}) + \Phi_1 (Y_{t-12} - Y_{t-13}) + \Phi_2 (Y_{t-24} - Y_{t-25}) + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} \]

Sustituyendo los coeficientes estimados:

\[ Y_t = Y_{t-1} + 0.7276 (Y_{t-1} - Y_{t-2}) + 0.1756 (Y_{t-12} - Y_{t-13}) + 0.1323 (Y_{t-24} - Y_{t-25}) + \epsilon_t - 1.4731 \epsilon_{t-1} + 0.5911 \epsilon_{t-2} \]

El SARIMA(1,1,2)(2,0,0)[12] es útil para el pronóstico de la media, pero es inadecuado para estimar el riesgo (intervalos de confianza) debido a la Heterocedasticidad no modelada

La variación en la amplitud de los errores confirma la presencia de Heterocedasticidad (varianza no constante).

Este nuevo modelo ha logrado capturar toda la dependencia lineal de la serie. Visualmente, los residuos se comportan como Ruido Blanco. Los residuos no se distribuyen normalmente.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_pet2
## KPSS Level = 0.11309, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  res_pet2
## X-squared = 6.7111, df = 12, p-value = 0.8761

## 
##  Shapiro-Wilk normality test
## 
## data:  res_pet2
## W = 0.99157, p-value = 0.02146

Dado que $p \ge 0.05$ (o $p$ es alto), no se rechaza $H_0$ (los residuos son estacionarios). El modelo ha eliminado correctamente la tendencia y/o estacionalidad de la media. En la prueba Box-Ljung el $p\text{-value}$ es muy alto ($p \ge 0.05$), por lo tanto, no se rechaza $H_0$ (los residuos son ruido blanco). Este modelo es estadísticamente superior al $\text{ARIMA}(1,1,2)$ anterior ($\text{Box-Ljung\_p} \approx 0.035$) porque ha capturado toda la dependencia lineal restante. Y para la normalidad, l $p\text{-value}$ es bajo ($p < 0.05$), por lo tanto, se rechaza $H_0$ (los residuos no son normales). Esta es una falla crítica que confirma el problema de la Heterocedasticidad (varianza no constante) observado en el gráfico de residuos.

## Series: ts_petroleo 
## ARIMA(0,1,2) 
## 
## Coefficients:
##           ma1     ma2
##       -0.7471  0.1021
## s.e.   0.0512  0.0474
## 
## sigma^2 = 6.717e+10:  log likelihood = -5594.65
## AIC=11195.31   AICc=11195.37   BIC=11207.3

Ecuación en Notación de Operadores de Retraso (Forma Factorizada)

El modelo ARIMA(0,1,2) se define como: \[ (1-B) Y_t = (1 + \theta_1 B + \theta_2 B^2) \epsilon_t \]

Ecuación Despejada a $Y_t$ (Forma de Pronóstico)

Para expresar el modelo en función del valor actual, $Y_t$, se mueve el operador de diferenciación al lado derecho:

\[ Y_t = Y_{t-1} + (1 + \theta_1 B + \theta_2 B^2) \epsilon_t \]

Expandiendo los operadores de retraso para el término de error ($\epsilon_t$) y sustituyendo los coeficientes estimados:

\[ Y_t = Y_{t-1} + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} \]

\[ Y_t = Y_{t-1} + \epsilon_t - 0.7471 \epsilon_{t-1} + 0.1021 \epsilon_{t-2} \]

La banda extremadamente ancha confirma el hallazgo de las pruebas de diagnóstico: el modelo falla en capturar la volatilidad (Heterocedasticidad) de la serie.

La varianza cambiante confirma la presencia de Heterocedasticidad (volatilidad no constante).

Este tercer modelo, al igual que los anteriores, es adecuado para el pronóstico de la media ($Y_t$) porque sus residuos son Ruido Blanco. Sin embargo, la falla en la Normalidad significa que el modelo no es capaz de modelar correctamente la volatilidad de la serie.

## 
##  KPSS Test for Level Stationarity
## 
## data:  res_pet3
## KPSS Level = 0.2376, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  res_pet3
## X-squared = 29.313, df = 13, p-value = 0.005907

## 
##  Shapiro-Wilk normality test
## 
## data:  res_pet3
## W = 0.99018, p-value = 0.008454

Este modelo es el peor de los tres probados para la serie de Petróleo, ya que falla en dos supuestos críticos:

Ruido Blanco (Box-Ljung): La presencia de autocorrelación residual significa que la media del modelo está mal especificada.

Normalidad (Shapiro-Wilk): La presencia de Heterocedasticidad significa que la varianza del modelo está mal especificada.

Comparación de los modelos ARIMA de exportación de petroleo y sus derivados en Colombia
Modelo	AIC	BIC	KPSS_p	LjungBox_p	Normalidad_p
ARIMA(1,1,2)	11190.61	11206.61	0.1	0.10300	0.01122
SARIMA(1,1,2)(2,0,0)[12]	11174.24	11198.24	0.1	0.96518	0.02146
ARIMA(0,1,2)	11195.31	11207.30	0.1	0.01465	0.00845

El SARIMA(1,1,2)(2,0,0)[12] es la mejor especificación de la media para la exportación de petróleo, ya que:Tiene el AIC más bajo.Produce residuos que son formalmente Ruido Blanco ($\text{LjungBox\_p}$ más alto).

Problemas a resolver

Carbón

A partir de 2010, el volumen de exportaciones de carbón de Colombia exhibe una volatilidad importante, con oscilaciones, picos y caídas más pronunciadas que antes. Esto concuerda con cambios en el mercado global de carbón y con una sensibilidad mayor de Colombia a los ciclos de precios mundiales, como se observa en la literatura.

Ballesteros y Lafont (2008) sugieren que las exportaciones de carbón colombianas dependen, en gran medida, del mercado externo, donde Colombia actúa como un país tomador de precios. Por tanto, los volúmenes de exportación cambian directamente con el precio internacional y la demanda global. El aumento de las exportaciones entre 2010 y 2012 se debió al incremento de los precios por la demanda asiática, y las caídas posteriores se debieron a la disminución de dichos precios.

La década de 2010 se distingue por la inestabilidad en los mercados energéticos globales, según la IEA (2019) y el Banco de la República (2011). Este período se caracterizó por cambios en la demanda europea debido a la transición energética, una competencia mayor de exportadores como Australia e Indonesia, y problemas logísticos (huelgas portuarias, costos de transporte y la pandemia en 2020) que afectaron el comercio. Estas circunstancias justifican las variaciones bruscas en la serie colombiana desde 2010.

Los países con una estructura exportadora centrada en materias primas, como Colombia, suelen tener una volatilidad alta en sus exportaciones, ligada al comportamiento externo más que a factores internos (Banco de la República, 2011). Por lo tanto, la volatilidad observada es parte de la interacción de Colombia con un mercado internacional de carbón inestable en la década estudiada.

Petróleo y sus derivados

La serie de tiempo de las exportaciones de petróleo y sus derivados muestra una tendencia descendente desde 2014, que persiste incluso tras la recuperación posterior a la pandemia. Este patrón sugiere un problema estructural en la producción y exportación, vinculado al agotamiento de los campos petroleros principales y a la menor inversión en exploración. Informes señalan que muchos pozos del país están en declive natural, reduciendo la capacidad de producción (CBHE, 2025). Adicionalmente, bloqueos sociales, ataques a oleoductos y problemas de orden público han afectado la operación de campos estratégicos (El Colombiano, 2025).

La menor inversión en exploración también restringe la renovación de reservas y la sostenibilidad futura del sector. Reportes indican que la caída en producción y exportación se debe a la falta de nuevos hallazgos y a una inversión insuficiente para mantener las reservas a largo plazo (Rumbo Minero, 2025). Otros análisis advierten que, de continuar esta tendencia, Colombia podría depender más de las importaciones de petróleo y gas debido a la reducción de las reservas probadas (Infobae, 2025), afectando las finanzas públicas, la balanza comercial y la autosuficiencia energética (Portafolio, 2025).

Aunque se intenta mitigar este declive con tecnologías de recobro mejorado en campos maduros, estabilizando algunas reservas (MinArt, 2025), la literatura indica que estas acciones son insuficientes sin un aumento importante en la exploración y condiciones más estables para la operación petrolera. Proyecciones del Ministerio de Minas y Energía atribuyen la caída en las exportaciones desde 2014 al deterioro de los campos y a la baja reposición de reservas (MinEnergía, 2024), lo que sugiere que la tendencia descendente no es temporal, sino un síntoma de problemas estructurales en el sector.

Conclusiones

Series 1 y 2: Precio y Volumen de Leche Cruda en el Cesar

Precio de la Leche Cruda

Tendencia General: El precio exhibe un aumento constante a largo plazo, pasando de cerca de 672 COP/litro en 2007 a más de 2,400 COP/litro en 2023.
Variabilidad: Se observa una alta variabilidad, especialmente en el periodo 2020-2023, con un coeficiente de variación del 38.84%.
Estacionalidad: Se aprecia un patrón estacional anual recurrente, con precios ligeramente más elevados durante la primera mitad del año.
Distribución: Los precios siguen una distribución log-normal, característica de variables económicas positivas y asimétricas.
Mejor Modelo: El SARIMA(1,1,2)(1,0,0)[12] resultó ser el mejor modelo, capturando de manera adecuada la estructura temporal y estacional de la serie.
Previsión: Se anticipa una estabilización alrededor de los 2,000 COP/litro, aunque con una alta incertidumbre en los intervalos de confianza.

Volumen de Leche Comercializada

Tendencia General: El volumen muestra un declive desde 2015, con una reducción continua en la producción o comercialización.
Estacionalidad Definida: Presenta un patrón estacional anual fuerte, con volúmenes mayores en la segunda mitad del año (junio a noviembre) y menores al principio del año.
Variabilidad: Alta variabilidad con un coeficiente de variación del 29.39%, lo que indica una producción irregular.
Distribución: También sigue una distribución log-normal, lo que confirma el comportamiento asimétrico de la serie.
Mejor Modelo: El SARIMA(1,0,0)(2,1,1)[12] con drift fue el más adecuado, incorporando la estacionalidad y la tendencia a la baja.
Previsión: Se proyecta una continuación del patrón cíclico en niveles bajos, alrededor de 10 millones de litros mensuales.

Relación entre Variables

Se determinó una correlación negativa moderada (r = -0.55) entre precio y volumen, consistente con la teoría económica de oferta y demanda.
Esta relación inversa sugiere que, cuando la producción aumenta, los precios tienden a disminuir, y viceversa.

Series 3 y 4: Exportaciones de Carbón y Petróleo en Colombia

Exportaciones de Carbón

Tendencia General: Crecimiento constante hasta 2015-2016, seguido de una disminución notable y mayor variabilidad después de 2020 .
Distribución Compleja: La serie presenta una distribución bimodal mejor modelada por una mezcla de dos distribuciones log-normales.
Variabilidad Extrema: Coeficiente de variación superior al 50%, que refleja la alta sensibilidad a factores externos del mercado global.
Estacionalidad: Patrón estacional anual bien definido en la descomposición STL.
Mejor Modelo: El SARIMA(0,1,1)(1,0,0)[12] exhibió el mejor equilibrio entre ajuste y simplicidad.
Previsión: Se proyecta una estabilización con alta incertidumbre, lo que refleja la naturaleza volátil del mercado del carbón.

Exportaciones de Petróleo y Derivados

Tendencia General: Crecimiento hasta 2014-2015, seguido de una tendencia decreciente persistente, lo que sugiere problemas estructurales en el sector.
Distribución: Mejor modelada por una mezcla de tres distribuciones log-normales.
Variabilidad: Coeficiente de variación del 39.89%, lo que indica una variabilidad de moderada a alta.
Estacionalidad: Patrón estacional claro y consistente a lo largo de los años.
Mejor Modelo: El SARIMA(1,1,2)(2,0,0)[12] resultó ser la especificación más adecuada.
Predivisión: Continuación de la tendencia decreciente con alta incertidumbre en los intervalos de confianza.

Conclusiones Generales

Metodológicas

El enfoque SARIMA mostró ser útil para modelar series con componentes estacionales.
La descomposición STL fue valiosa para determinar componentes estacionales y tendencias.
Las pruebas de estacionariedad (KPSS) y diferenciación (ndiffs) fueron centrales para la correcta especificación de los modelos.

Sustantivas

Sector Lácteo del Cesar: Se puede ver problemas estructurales con una producción que disminuye y precios variables, lo que necesita políticas de estabilización.
Sector Minero-Energético Colombiano: Demuestra una alta dependencia de los mercados externos y vulnerabilidad a cambios internacionales, sobre todo en el carbón.
Patrones Estacionales: Todas las series analizadas muestran una estacionalidad definida, lo que se debe considerar en la planificación del sector.
Variabilidad: La alta variabilidad en todas las series sugiere la necesidad de incorporar modelos que capturen heterocedasticidad (como GARCH) en análisis futuros.

Limitaciones y Recomendaciones

Los modelos tienen limitaciones en la captura de heterocedasticidad.
Se aconseja explorar modelos multivariados que capturen las relaciones entre variables.
La inclusión de variables exógenas (climáticas, económicas, políticas) podría mejorar la capacidad predictiva de los modelos.

Referencias

Andi–Cámara Gremial de la Leche. (2023). Impacto de las importaciones en la estabilidad del precio de la leche en Colombia.
Ballesteros Álvarez, N., & Lafont González, J. (2008). Exportaciones de carbón en Colombia: un análisis de su evolución (1970-2006).
Banco de la República. (2011). Commodity Prices and Colombia’s Exports (Borradores de Economía No. 692).
Chinlli, C. M. (2021). Modelización de Series Temporales modelos clásicos y SARIMA. Universidad de Granada Departamento de Estadística e Investigación Operativa.
Cleveland, R. B., Cleveland, W. S., McRae, J. E., & Terpenning, I. (1990). STL: A seasonal-trend decomposition. J. off. Stat, 6(1), 3-73.
DANE. (2022). Boletín de insumos agropecuarios y precios del sector lechero.
Escuela ESGEP. (2025). Colombia reduce la exploración petrolera y enfrenta una baja en ingresos económicos. ESGEP
FEDEGÁN. (2023). Situación actual de la producción lechera en Colombia y efectos del aumento de costos.
GeeksforGeeks. (2025). SARIMA (Seasonal Autoregressive Integrated Moving Average). GeeksforGeeks. Recuperado el 13 de noviembre de 2025, de https://www.geeksforgeeks.org/machine-learning/sarima-seasonal-autoregressive-integrated-moving-average/
International Energy Agency (IEA). (2019). Coal Information 2019. IEA Publications.
Kwiatkowski, D., P.C.B. Phillips, P. Schmidt y Y. Shin (1992): “Testing the Null Hypothesis of Stationarity against the Alternative of a Unit Root. How Sure are we that Economic Time Series have a Unit Root?”, Journal of Econometrics, 54, págs. 159-178.
LÓPEZ, A. J. (2002). Contrastes de estacionariedad en series con un cambio en la media. Revista de Economía Aplicada, 10(29), 107-134.
Más Colombia. (2024). Gas natural y petróleo en Colombia: la caída de reservas y la falta de inversión ponen en peligro la autosuficiencia energética. Más Colombia.
MinAgricultura. (2022). Informe anual del comportamiento del sector lácteo en Colombia.
SIPSA (DANE). (2023). Sistema de Información de Precios y Abastecimiento del Sector Agropecuario.
Tróchez González, J., & Valencia Cárdenas, M. (2014). Análisis de series temporales en el sector lácteo de Antioquia para detectar efectos de la apertura comercial. Revista Investigaciones Aplicadas.

Análisis de series temporales

Sebastian David Bohorquez Ponce

2025-11-23

Primera parte

Descripción de los datos

Analisis descriptivo

Precio de leche cruda pagada al productor con bonificación en el Cesar

Volumen de litros de leche cruda comercializada en el Cesar

Correlación entre variables

Descomposición STL

Prueba de estacionariedad

El contraste KPSS

ACF Y ACFP

Ajustes de modelos ARIMA

Problemas a resolver

Precio de leche en el cesar

Volumen de leche en el Cesar

Segunda Parte

Descripción de los datos

Análisis descriptivo

Exportación del carbón en toneladas

Exportación del petroleo y sus derivados en toneladas

Descomposición STL

Prueba de estacionariedad

ACF Y ACFP

Ajuste de modelos con auto.arima

Problemas a resolver

Carbón

Petróleo y sus derivados

Conclusiones

Series 1 y 2: Precio y Volumen de Leche Cruda en el Cesar

Precio de la Leche Cruda

Volumen de Leche Comercializada

Relación entre Variables

Series 3 y 4: Exportaciones de Carbón y Petróleo en Colombia

Exportaciones de Carbón

Exportaciones de Petróleo y Derivados

Conclusiones Generales

Metodológicas

Sustantivas

Limitaciones y Recomendaciones

Referencias