PROYECTO SERIE

1. Introducción o descripción del trabajo a realizar

El proyecto de series de tiempo consta de dos partes, en elcualen cada una hay que descargar una base de datos del Ministerio de Agricultura de Colombia o del DANE o del ICFES o de Agronet u otras fuentes, Pero que sean datos publico. Escoger dos series para la primera y segunda entrega, en total son cuatro series, realizar un análisis descriptivo con gráficos y aplicar lo que se lleve de tema en estas series y mucho más.

Esta parte corresponde a la primera parte del proyecto del curso Series de Tiempo, cuyo propósito es realizar un análisis descriptivo con apoyo gráfico y aplicar los conceptos vistos en clase a series temporales reales obtenidas de fuentes oficiales de datos públicos. En este caso, se seleccionó una base de datos proveniente del Ministerio de Agricultura y Desarrollo Rural de Colombia (Agronet), que contiene información sobre el comportamiento histórico del precio y el volumen de producción de un producto agrícola en el país.

El objetivo general de este análisis es explorar el comportamiento temporal del precio y el volumen, identificando sus tendencias, variaciones interanuales y posibles patrones estacionales que permitan comprender la dinámica del mercado agrícola a nivel nacional.

Para ello, se utiliza el software R, herramienta fundamental en el análisis estadístico y de series temporales. En esta primera etapa se desarrolla el análisis descriptivo, empleando medidas estadísticas, gráficos exploratorios y pruebas de estacionariedad que facilitan la interpretación del comportamiento de las variables en estudio.

Descripcion de la base de datos. La base de datos (Precio y volumen de comercialización de productos lácteos por departamento (leche en polvo entera)) empleada en este trabajo proviene del portal oficial del Ministerio de Agricultura y Desarrollo Rural de Colombia (Agronet), en el apartado de Estadísticas Agrícolas (https://www.agronet.gov.co/estadistica/Paginas/home.aspx?cod=9).

Esta base contiene información sobre la producción agropecuaria nacional, desagregada por producto, departamento y periodo temporal. Para este análisis se seleccionó el producto “Leche en polvo entera” en el departamento de Antioquia, con registros mensuales comprendidos entre los años 2007 y 2015. Las variables principales consideradas son el precio (expresado en pesos colombianos por tonelada) y el volumen de producción (en toneladas). Esta información permite estudiar la evolución temporal del mercado lácteo en la región, identificar patrones de comportamiento, tendencias y posibles relaciones entre los niveles de producción y las variaciones de precio a lo largo del tiempo.

A continuación se muestra como está estructurada la base de datos.

Aquí se visualiza un encabezado de como esta constituida la base de datos, en total son 108 observaciones, tambien 10 variables tanto cualitativas como cuantitativas en el cual las de nuestro interes son las variables precio y volúmen.

Luego se realiza un analisis descrictivo a la base de datos en general.

Tabla 1. Estadísticos descriptivos de las variables numéricas
Variable	n	media	mediana	sd	min	max
Año	108	2011.00	2011.00	2.59	2007.00	2015
Precio	108	10806.29	10879.93	658.57	8538.37	12266
Variación Precio (%)	108	0.14	0.00	5.36	-21.00	31
Variación Volúmen (%)	108	3.56	2.50	23.44	-40.00	56
Volúmen	108	1316469.99	1305483.00	289769.93	870752.36	2337662

La base de datos presenta información de 108 observaciones entre los años 2007 y 2015. El precio promedio es de 10,806 , con una ligera dispersión (sd = 658), lo que indica estabilidad en el valor a lo largo del periodo. El volumen promedio es de 1,316,470 unidades, con una desviación estándar de 289,770, lo que refleja una producción considerable y con variaciones moderadas entre los años.

El análisis descriptivo permite observar el comportamiento general de las variables numéricas incluidas en la base de datos. En términos generales, los valores medios y medianas son cercanos, lo que sugiere una distribución aproximadamente simétrica en la mayoría de las variables. Las desviaciones estándar indican que existe variabilidad moderada en los datos, destacando aquellas variables relacionadas con el volumen, que presentan una mayor dispersión.

Por su parte, las variables asociadas al precio muestran valores más estables, lo que refleja consistencia en el comportamiento del mercado durante el periodo analizado. En conjunto, los resultados indican que los cambios más significativos se presentan en los volúmenes de producción o comercialización, mientras que los precios tienden a mantener un comportamiento más uniforme a lo largo del tiempo.

De manera de continuar con proyecto, debemos elegir dos series de y aplicar lo visto en el curso de series de tiempo. Las series (variable) que elegí fueron precio y volumen.’

Cómo nuestras variable de interes són volúmen y precio se le realiza un análisis descrictivo sólo a ellas.

Tabla 2. Estadísticos descriptivos de Precio y Volúmen
Variable	n	Media	Mediana	Desviación	Mínimo	Máximo
Precio	108	10806.29	10879.93	658.57	8538.37	12266
Volúmen	108	1316469.99	1305483.00	289769.93	870752.36	2337662

Aquí se realiza o se calcula medidas de tendencia centrales y de dispercion. los valores corresponden a los mismos del analisis descriptivo anterior.

Conclusión descriptiva:

El análisis descriptivo muestra que el precio promedio se mantiene estable a lo largo del periodo, con una variabilidad relativamente baja, lo que sugiere que el mercado ha sido consistente en sus valores de comercialización. En contraste, el volumen presenta una media considerable y una dispersión más alta, indicando fluctuaciones más notorias en la producción o venta del producto. En conjunto, los resultados sugieren que mientras el precio ha mostrado estabilidad, el volumen refleja mayores cambios o variabilidad, posiblemente asociados a factores estacionales, de oferta o condiciones del mercado.

Luego se procede a realizar los análisis para la variable precio.

como anteriormete ya se le realizo un análisis descrictico con medidas de tendencia central y de disperción, ahora se realizara graficos para ver como es el comportamiendo de la variable precio

se grafica la variable precio:

En esta grafica se puede evidenciar el comportamiento de la variable “precio” a lo largo del periodo 2007-2015, se observa que del año 2007 al 2009 hubo un inclemento y apartir de ahí comienza a decrecer hatas más o menos finales de 2010 que posteriormente al siguiente año comienza nuevamentea incrementar. Pero en adelante tambien se nota un comportamiento de subidas y bajadas alcanzndo el pico mas alto a finales del año 2015.

Se realiza un Boxplot.

El diagrama de caja muestra que la mayoría de los valores se concentran entre aproximadamente 10.000 y 11.500, con una mediana cercana a 10.900, lo que indica estabilidad en los precios a lo largo del tiempo. Se observan algunos valores atípicos tanto por debajo como por encima del rango intercuartílico

Tambien se realiza un Hístograma con curva de densidad.

El histograma muestra que los valores de Precio se concentran principalmente alrededor de una zona central, lo que indica una distribución aproximadamente simétrica. La curva de densidad refuerza esta observación. Se quiere saber cual distribución se ajusta mejor a los datos, el cual se utiliza los estadistico AIC y BIC que me permiten determinar cual distribución se ajusta mejor.

Los criterios AIC (Criterio de Información de Akaike) y BIC (Criterio de Información Bayesiano) se utilizan para comparar modelos estadísticos y determinar cuál tiene mejor desempeño. Ambos combinan el grado de ajuste del modelo con una penalización por el número de parámetros utilizados.

AIC = -2 * log(verosimilitud) + 2 * k
BIC = -2 * log(verosimilitud) + k * log(n)

Donde:
- k es el número de parámetros del modelo.
- n es el número de observaciones.
- log(verosimilitud) mide qué tan bien se ajusta el modelo a los datos.

Para determinar cual distribución se ajusta mejor a los datos de la variable precio, se utiliza la función fitdist() del paquete fitdistrplus en R permite ajustar diferentes distribuciones teóricas a un conjunto de datos continuos o discretos(en este caso continuos), estimando los parámetros de cada distribución mediante métodos de máxima verosimilitud. Su objetivo es identificar qué distribución describe mejor el comportamiento de la variable analizada. Para comparar los modelos ajustados se utilizan criterios estadísticos ya mencionados anteriormente como el AIC (Akaike Information Criterion) y el BIC (Bayesian Information Criterion), los cuales combinan la calidad del ajuste con una penalización por la complejidad del modelo. En ambos casos, el modelo con el valor más bajo de AIC y BIC se considera el más adecuado, ya que representa un mejor equilibrio entre ajuste y simplicidad, describiendo de forma más precisa la distribución real de los datos.

En el caso de los datos de precio, la que valor mas bajo de AIB y BIC lo presenta es el modelo Weibull, lo que nos indica que la distribución que mejor se ajusta a estos datos es la Weibull.

Se grafica esta distribuciones para poder observarlas graficamnete.

Aquí se observa de manera grafica las distintas distribuciones, con el fin de que se pueda apreciar de manera visual cual es la que mejor se ajusta a los datos. Y tambien se indentifica que la mas obtima es la distribución Weimbull.

Ahora combierten las variable “precio” a series.

Luego de convertida la serie, se grafica para ver como es su compotamiento.

Y aquí se aprecia como es el comportamiento de la serie precio.

Luego, para verificar si las series Precio es estacionaria, se aplica el test de KPSS (Kwiatkowski–Phillips–Schmidt–Shin).

Según Kwiatkowski et al. (1992), el test KPSS permite comprobar si una serie es estacionaria o no, contrastando la hipótesis nula de estacionariedad frente a la alternativa de presencia de una raíz unitaria.

## 
##  KPSS Test for Level Stationarity
## 
## data:  precio_ts
## KPSS Level = 0.75556, Truncation lag parameter = 4, p-value = 0.01

El test kpss plantea las siguientes hipótesis:

H₀:La serie es estacionari).
H₁:La serie no es estacionaria.

El criterio de decisión es el siguiente:

Si el p-valor < 0.05, se rechaza H₀, concluyendo que la serie no es estacionaria.

Si el p-valor ≥ 0.05, no se rechaza H₀, por lo que la serie se considera estacionaria.

En este caso, dado que el p-valor = 0.01 es menor que 0.05, se rechaza la hipótesis nula. por lo tanto, se concluye que la serie no es estacionaria, a lo que se le debe aplicar n diferencias para convertirla en estacionaria.

Posterior a esto, se quiere saber o determinar cuantas veces hay que diferenciar la serie para que se vuelva estacionaria. La función ndiffs() analiza cada serie y calcula el número mínimo de diferenciaciones necesarias para que la serie se vuelva estacionaria, osea: Si devuelve 0, la serie ya es estacionaria. Si devuelve 1, se debe aplicar una diferencia. Si devuelve 2, se requiere dos diferencias.

## [1] 1

## Diferencias necesarias para Precio: 1

Al aplicar el test kpss, los resultados mostraron que la serie no es estacionarias.

Luego al emplear la función ndiffs, se obtuvo que la serie requiere al menos una diferencia (d = 1) para alcanzar la estacionariedad.

Pero antes de aplicar las diferencias para volver la serie a estacionaria, descomponemos la serie. Existen dos tipo de descomposición, de manera multiplicativa y de manera aditiva. En este caso se realiza esta ultima

Se realiza descomposición para analizar el comportamiento interno de la serie, en el cual: - Tendencia (Trend): refleja la evolución general de la serie a lo largo del tiempo.
- Estacionalidad (Seasonal): muestra los patrones que se repiten de forma periódica.
- Residuo (Random): representa la variación aleatoria no explicada por los componentes anteriores.

Entonces se aplica una disferencia a la serie.

Y posterior a eso, se aplica nuevamente el test de kpss para comprobar si ya es estacionaria la serie.

## 
##  KPSS Test for Level Stationarity
## 
## data:  convertir_precio
## KPSS Level = 0.11761, Truncation lag parameter = 4, p-value = 0.1

Y como el p_valor = 0.1 es mayor que 0.05 por lo que no se rechaza la hipótesis nula. lo que nos indica que la serie es estacionaria.

Nuevamente se grafica la serie, pero ya esta ves estacionaria. Y así analiza ve de manera visual el comportamiento de la serie (precio) ya siendo estacionaria.

Se realiza la función de autocorrelación (FAC) y la función de autocorrelación parcial (FACP) para la serie estacionaria.

A partir del análisis gráfico del correlograma, se puede evidenciar que la serie diferenciada del precio presenta un comportamiento estacionario, con autocorrelaciones que disminuyen rápidamente.

En esta etapa del análisis, se procederá a comparar distintos modelos de ajuste para las series, con el fin de determinar cuál describe mejor su comportamiento. Para ello, se utilizarán los criterios de información Akaike (AIC) y Bayesiano (BIC), los cuales permiten evaluar la calidad de los modelos considerando tanto el ajuste a los datos como la complejidad del modelo. Un valor menor de AIC o BIC indica un mejor equilibrio entre precisión y simplicidad, por lo que estos indicadores son herramientas fundamentales en la selección de modelos estadísticos.

Los modelos ARMA solo pueden aplicarse a series estacionarias; sin embargo, la mayoría de las series temporales reales presentan tendencias o componentes no estacionarios. En estos casos, se recurre a los modelos ARIMA (p, d, q), que extienden los ARMA incorporando la diferenciación de orden d para eliminar la no estacionariedad y permitir un modelamiento adecuado de la estructura temporal.

Según Luceño (2008), los modelos ARIMA representan una herramienta flexible y ampliamente utilizada para analizar procesos no estacionarios que, tras una o varias diferenciaciones, se comportan como estacionarios.

Entonces se realiza las comparaciones para identificar que modelo se ajusta mejor a cada serie, tanto para cuando no son estacionaria como para acuando ya lo son.

El primer modelo que se plantea es un arima:

## Series: precio_ts 
## ARIMA(0,1,1) 
## 
## Coefficients:
##           ma1
##       -0.1967
## s.e.   0.1005
## 
## sigma^2 = 135583:  log likelihood = -783.57
## AIC=1571.14   AICc=1571.26   BIC=1576.49

El modelo resulto un ARIMA(0,1,1), como no tiene componente de AR se determina que es un MA de orden 1 expresado de la siguinete manera.

\[ X_t = \varepsilon_t + (-0.1967)\varepsilon_{t-1} \] Segundo modelo lo planteamos con la función auto.arima, el cual esta función nos dara el que considere el mejor modelo para la serie.

## Series: precio_ts 
## ARIMA(0,1,1)(1,0,1)[12] 
## 
## Coefficients:
##           ma1     sar1    sma1
##       -0.1900  -0.9030  0.9995
## s.e.   0.1006   0.1004  0.1871
## 
## sigma^2 = 131400:  log likelihood = -783.1
## AIC=1574.19   AICc=1574.59   BIC=1584.89
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE      MASE
## Training set 36.88121 355.7147 244.7786 0.2993302 2.248386 0.3790662
##                       ACF1
## Training set -0.0006574569

## [1] 1574.194

el modelo resultó un SARIMA (0,1,1)(1,0,1)[12], el cual (1,0,1) son los componentes de estacionariedad y [12] es la periosidad.

Tercer modelo.

## Series: precio_ts 
## ARIMA(1,1,1)(1,0,1)[12] 
## 
## Coefficients:
##          ar1      ma1     sar1    sma1
##       0.1998  -0.3829  -0.9037  1.0000
## s.e.  0.4013   0.3811   0.1009  0.1816
## 
## sigma^2 = 132352:  log likelihood = -782.98
## AIC=1575.95   AICc=1576.55   BIC=1589.32
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE    MASE         ACF1
## Training set 38.27787 355.2811 244.4904 0.3115379 2.245541 0.37862 -0.005057232

el modelo resultó un SARIMA (1,1,1)(1,0,1)[12], el cual (1,0,1) son los componentes de estacionariedad y [12] es la periosidad.

Entonces, se procede a analizar los reciduos de los modelos para mirar cual es mejor.

Residuos primer modelo.

Este grafico representa el comportamiento de los residuos del modelo 1.

Gráfico de residuos en el tiempo se comportan como ruido aleatorio, lo cual es un buen indicio de que el modelo captura correctamente la dinámica de la serie. ACF de los residuos no hay evidencia de autocorrelación significativa en los residuos. Esto sugiere que el modelo ha absorbido la estructura temporal principal de la serie. En el QQ-plot los residuos de manera visual siguen aproximadamente una distribución normal.

Aplicamos testes para corroborar estacionariedad, independencia y normalidad.

## 
##  KPSS Test for Level Stationarity
## 
## data:  a
## KPSS Level = 0.12257, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  a
## X-squared = 5.1318, df = 14, p-value = 0.9839

## 
##  Shapiro-Wilk normality test
## 
## data:  a
## W = 0.91229, p-value = 0.000002633

los test de Box y Shapiro-Wilk plantean la siguiente hipotesis:

Hipótesis Box:

H₀ (nula): No hay autocorrelación en los residuos
Los residuos son independientes (ruido blanco)

H₁ (alternativa): Sí hay autocorrelación en los residuos
Los residuos NO son ruido blanco

p < 0.05 → Rechazas H₀
Hay autocorrelación, el modelo NO captura toda la estructura temporal

p ≥ 0.05 → No rechazas H₀
Los residuos parecen ruido blanco, el modelo está bien ajustado

Hipótesis Shapiro-Wilk:

H₀ (nula): Los datos siguen una distribución norma

H₁ (alternativa): Los datos NO siguen una distribución normal

p < 0.05 → Rechazas H₀ Los datos NO son normales

p ≥ 0.05 → No rechazas H₀ No hay evidencia contra la normalidad (los datos pueden considerarse normales)

En el caso del primer modelo, los residuos son estacionarios ya que no se rechaza ho, tambien independiente pero no siguen una distribución normal.\

Residuos para el segundo modelo.

Este grafico representa el comportamiento de los residuos del modelo 2.

Se le aplican los testes para estacionariedad, independencia y normalidad de los residuos del modelo.

## 
##  KPSS Test for Level Stationarity
## 
## data:  b
## KPSS Level = 0.11675, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  b
## X-squared = 4.7447, df = 14, p-value = 0.9891

## 
##  Shapiro-Wilk normality test
## 
## data:  b
## W = 0.90917, p-value = 0.000001812

De igual manera para este segundo modelo los residuos cumplen estacionariedad, independencia pero no normalidad.

Residuos para el modelo 3.

Este es el comportamiento graficamente de los residuos deltercer modelo.

Se le aplican los testes para estacionariedad, independencia y normalidad de los residuos del modelo.

## 
##  KPSS Test for Level Stationarity
## 
## data:  b
## KPSS Level = 0.11675, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  b
## X-squared = 4.7447, df = 13, p-value = 0.9804

## 
##  Shapiro-Wilk normality test
## 
## data:  b
## W = 0.90917, p-value = 0.000001812

En este tercer modelo de igual manera que los dos anteriores lo residuos son estacioraios, independiente pero no siguen distribución normal.

Entonces nos basamos el los criterios de AIC para determonar el mejor modelo. Modelo 1: AIC=1571.14
Modelo 2: AIC=1574.19
Modelo 3: AIC=1575.95

Dadoque el modlo 1 es el que presenta el valor mas bajo de AIC entonces se considera elmejor modelo.

Luego se procede a realizar previsión.

A pesar de que el modelo 1 a travez del criterio AIC se determinó que era el mejor, la previsión se realiza con el modelo 3.

Aunque el Modelo 1 (ARIMA no estacional) presentó un AIC ligeramente menor, la selección final del modelo no se basó exclusivamente en este criterio. Se eligió el Modelo 3: SARIMA(1,1,1)(1,0,1)[12], debido a las siguientes razones metodológicas:

La serie presenta un patrón estacional claro, asociado a variaciones recurrentes a lo largo del año. Un modelo puramente no estacional, como el Modelo 1, no incorpora explícitamente esta estructura periódica y, por tanto, puede ofrecer un ajuste más pobre en términos de interpretabilidad y pronóstico.

El Modelo 3 incluye componentes estacionales SAR(1) y SMA(1) con un período de 12, lo que permite capturar dependencias y choques que se repiten anualmente. Esto refleja mejor la dinámica real del proceso generador de datos.

La previsión se realiza para los siguientes 12 meses. La línea azul (pronóstico) no continúa las oscilaciones fuertes de la serie histórica, sino que predice un comportamiento más suave y ligeramente ascendente, aunque el modelo captura la tendencia general y parte de la estructura estacional anual, la dinámica futura proyectada es considerablemente más suave que la variabilidad presente en la serie histórica. Esto se debe a que los modelos ARIMA, especialmente cuando incluyen diferenciación no estacional (d = 1), tienden a generar pronósticos que convergen gradualmente hacia la media local y reducen la amplitud de las fluctuaciones.\

Plantamiento del problema

Con el fin de continuar con el proyecto, se debe identificar una problematica y proveer uan posible solución.

Entonces nuevamente se garfica la serie para identificar alguna irregularidad que pueda representar un problema: Problema: En la serie se ve una caída fuerte y prolongada entre 2009 y finales de 2010. Este bajón no sigue el comportamiento normal del precio y rompe la tendencia que venía trayendo la serie. Esto indica que durante ese tiempo ocurrió algo fuera de lo habitual que hizo que los precios bajaran más de lo esperado. ¿Que pudo afectar a el precio en ese perido para que la serie tuviera ese comportamiento o tendencia decreciente.?

Posible causas: Entre 2009 y 2010, el precio nacional de la leche en polvo se vio presionado por el aumento del precio de importación y cambios aranceles. Según el documento CONPES 3675, los aranceles sobre la leche en polvo pasaron del 40% al 98%, lo que encareció las importaciones, pero a su vez generó una competencia que terminó afectando el precio local.

Además, reportes del sector señalan que las importaciones de leche en polvo contribuyeron a una sobreoferta que hizo bajar los precios para los productores nacionales.\

Solución: Una solución práctica sería que el sector planifique mejor la producción, tenga reservas para momentos difíciles y haga un seguimiento constante a los costos y a las importaciones. Con esto se pueden evitar caídas tan bruscas y mantener precios más estables.

Ahora se procede con la segunda serie “Volúmen”.

Se grafica para analizar su comportamiento de manera visual.

A diferencia de la variable anterior (precio), esta variable “volumen” se obcerva un comportaiento mas irregular, con subidas y bajadas muy repetitivas a lo largo del periodo.

Se le realiza un Boxplot.

El diagrama de caja del Volúmen revela una mayor dispersión, con una mediana alrededor de 1.300.000 y varios valores atípicos superiores, lo que evidencia que en algunos periodos hubo incrementos significativos en la producción o comercialización del producto. En general, el volumen presenta una variabilidad más alta que el precio, lo que podría estar relacionado con dinámicas estacionales o ajustes en los niveles de producción.Tambien se observan algunos datos atipicos pero solo por encima del rango intercuantilico.

Se realiza un histograma con curva de dencidad.

Se le realiza diagrama con curva de densidad para la variable volúmen para posteriormete tambien se utilizaran los criterios AIC y BIC para ver que distribución se ajusta mejor a estos datos.

Aplicamos los criterios.

Al aplicarnuevamente los criterios estadísticos AIC y BIC con la finalidad de indentificar que distribución se ajusta mejor para la variable volumen. Se observó que el modelo que presenta AIB y BIC mas bajo es el Log-normal, lo que indica que este es el que se ajusta mejor a estos datos.

Se grafican las distribuciones para analizarlas y compararlas visualmente.

De manera visual tambien se evidensea que de las ditribuciones la que mejor se ajusta a los datos es la Log-normal.

ahora convertimos las variables a series.

Luego de convertida a serie se grafica para observar su comportamiento.

Se puede apreciar como es el comportamiendo de la serie volúmen.

Se le aplica el test kpss a la serie volúmen para ver si es estacionaria

## 
##  KPSS Test for Level Stationarity
## 
## data:  volumen_ts
## KPSS Level = 1.2668, Truncation lag parameter = 4, p-value = 0.01

El resultado del test para la serie Volumen arrojó un p-valor = 0.01.
En este caso, el p-valor tambien es menor que 0.05, por lo que se rechaza la hipótesis nula.
Se concluye que la serie de Volumen no es estacionaria.

Tambien se le realiza descompocición aditiva a la serie volumen.

Posterior a esto, se quiere saber o determinar cuantas veces hay que diferenciar la serie para que se vuelva estacionaria.

## [1] 1

## Diferencias necesarias para Volumen: 1

Luego al emplear la función ndiffs, se obtuvo que la series requiere al menos una diferencia (d = 1) para alcanzar la estacionariedad. Se aplica una diferencia a la serie volúmen con el fin de volverla estacionaria.

Se aplica nuevamente el test kpss para verificar si ya es estacionaria la serie

## 
##  KPSS Test for Level Stationarity
## 
## data:  convertir_volumen
## KPSS Level = 0.071859, Truncation lag parameter = 4, p-value = 0.1

Como el p-valor = 0.1 es mayor que 0.05 entonces no se rechaza la hipótesis nula, lo que nos indica que la serie es estacionaria.

Se grafica nuevamente la serie volumen, pero ya estacionaria para ver como es su comportamiento. Se aprecia de manera visual como es el comportamiento de la serie ya siendo estacionaria.

Se realiza la funciòn de autocorrelación (FAC) y la función de autocorrelación parcial (FACP) para la serie estacionaria. En el FAC, se observa un pico negativo fuerte en el primer rezago, seguido de valores que se mantienen dentro de los límites de confianza. En la FACP, se observa también un pico negativo en el primer rezago, con los demás valores cercanos a cero.

De igual manera, se procederá a comparar distintos modelos de ajuste para las series.

Modelo 1

## Series: volumen_ts 
## ARIMA(0,1,1) 
## 
## Coefficients:
##           ma1
##       -0.7624
## s.e.   0.0750
## 
## sigma^2 = 57205922191:  log likelihood = -1476.95
## AIC=2957.9   AICc=2958.02   BIC=2963.25

El modelo resulto un ARIMA(0,1,1), como no tiene componente de AR se determina que es un MA de orden 1 expresado de la siguinete manera.

\[ X_t = \varepsilon_t + (-0.7624)\varepsilon_{t-1} \]

Modelo 2

## Series: volumen_ts 
## ARIMA(0,1,1)(1,0,0)[12] 
## 
## Coefficients:
##           ma1    sar1
##       -0.7592  0.0267
## s.e.   0.0767  0.1036
## 
## sigma^2 = 57717696185:  log likelihood = -1476.92
## AIC=2959.83   AICc=2960.07   BIC=2967.85
## 
## Training set error measures:
##                  ME     RMSE      MAE       MPE     MAPE      MASE        ACF1
## Training set 7511.3 236884.8 184099.1 -2.074986 13.90654 0.6717865 -0.04995119

el modelo resultó un SARIMA (0,1,1)(1,0,0)[12], el cual (1,0,0) son los componentes de estacionariedad y [12] es la periosidad.

Modelo 3.

## Series: volumen_ts 
## ARIMA(1,1,1)(0,1,1)[12] 
## 
## Coefficients:
##           ar1      ma1     sma1
##       -0.1849  -0.6216  -0.8865
## s.e.   0.1570   0.1394   0.2322
## 
## sigma^2 = 62747554524:  log likelihood = -1323.11
## AIC=2654.23   AICc=2654.67   BIC=2664.44
## 
## Training set error measures:
##                    ME     RMSE      MAE       MPE     MAPE      MASE
## Training set 27817.08 231196.1 174862.9 0.3826474 13.16946 0.6380832
##                     ACF1
## Training set -0.01892067

El modelo resultó un SARIMA (1,1,1)(0,1,1)[12], el cual (0,1,1) son los componentes de estacionariedad y [12] es la periosidad.

Analísis de los residuos para el primer modelo.

Estos graficos corresponde al comportamiento de los residuos.

Se le aplican los testes para estacionariedad, independencia y normalidad de los residuos del modelo.

## 
##  KPSS Test for Level Stationarity
## 
## data:  c
## KPSS Level = 0.20531, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  c
## X-squared = 16.962, df = 14, p-value = 0.2582

## 
##  Shapiro-Wilk normality test
## 
## data:  c
## W = 0.96842, p-value = 0.01134

El test de kpss nos indica que los residuos de ese modelos son estaciorario, el test de box no dice que son independiente. pero debido que el p- valor de sahpiro es menor que el alpha se concluye que los residuos del modelo no siguie una distribucion normal.

se analizan lo residuos del degundo modelo.

Los graficos corresponde al comportamiento de los residuos. Se le aplican testes paracorroborar estacionariedad, independencia y normalidad de losresiduos del modelo.

## 
##  KPSS Test for Level Stationarity
## 
## data:  d
## KPSS Level = 0.19563, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  d
## X-squared = 16.796, df = 13, p-value = 0.2088

## 
##  Shapiro-Wilk normality test
## 
## data:  d
## W = 0.96977, p-value = 0.0146

De igual manera, los testes nos indican que los residuos del modelo 2 son estacionarios, independientes pero tampoco siguien una distribución normal.

Análisi de los residuos del modelo 3.

se grafica de igualmanera que a los anteriores. se le aplican los testes.

## 
##  KPSS Test for Level Stationarity
## 
## data:  e
## KPSS Level = 0.042751, Truncation lag parameter = 4, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  e
## X-squared = 20.227, df = 13, p-value = 0.0897

## 
##  Shapiro-Wilk normality test
## 
## data:  e
## W = 0.97955, p-value = 0.09513

Sucede lo mismo que los dos modelos anteriores, los residuos son independiente, estacionarios pero no normales. Entonces por el criterio de AIC se lleva a cabo que le mejor modelo para la serie volumen es el modelo 3 un ARIMA(1,1,1)(0,1,1)[12] ya que presenta el valor de AIC=2654.23 mas bajo con respecto a los modelos 1 y 2.

Luego se realiza una previsión.

La previsión obtenida con el modelo ARIMA(1,1,1)(0,1,1)[12] muestra que el modelo logra capturar el patrón estacional anual de la serie y mantiene los valores futuros dentro del rango reciente. No obstante, la suavidad del pronóstico y la marcada expansión de los intervalos de predicción evidencian que el modelo no reproduce plenamente la alta variabilidad presente en los datos históricos. Esto sugiere que, aunque el modelo es adecuado para describir tendencias generales, la incertidumbre en el largo plazo es considerable y la serie podría requerir modelos más complejos para capturar la amplitud real de sus fluctuaciones.

Plantiamiento del Problema

Se grafica la serie original con el fin de analizar alguna problematica.

Problema: En la serie de volumen se observa una gran variabilidad estacional y algunos picos muy pronunciados entre 2012 y 2015, lo que indica que la producción o comercialización no es homogénea mes a mes hay meses de mucho volumen y meses bajos. ¿ A que se debe ese comportamiento ?

Posible causa: Una causa plosible para la gran variabilidad en el volumen de leche en polvo (y los picos fuertes que observas) es la variación climática, que afecta directamente la producción de materia prima (leche) en Colombia. Durante los períodos secos o con lluvias intensas, la calidad y cantidad de pasto cambia, lo que influye en la alimentación del ganado y, por ende, en la producción de leche.

De hecho, según un informe del Ministerio de Agricultura, la producción pecuaria en Colombia está muy expuesta a fenómenos climáticos como El Niño y La Niña, que alteran los ciclos lluviosos y de sequía, provocando fluctuaciones en la disponibilidad de forraje.

Solución: La marcada variabilidad del volumen se explica en gran parte por los efectos del clima sobre la producción lechera, pues sequías, excesos de lluvia y eventos como El Niño afectan directamente la disponibilidad de pasto y, por tanto, la cantidad de leche procesada en polvo. Una posible solución consiste en fortalecer las medidas de prevención y adaptación del sector, como mejorar el manejo de forrajes, almacenar reservas para épocas críticas, implementar suplementación estratégica y utilizar alertas climáticas para anticipar periodos adversos. Estas acciones permiten reducir la vulnerabilidad del sistema productivo y evitar caídas tan pronunciadas en el volumen, estabilizando así el comportamiento de la serie.

Posterior al analisis de estas dos series (precio y volumen), correspondian a la primera parte del proyecto. Ahoara se debe buscar otra base y analizar otras dos series.

En esta segunda parte del proyecto de Series de Tiempo se continúa el análisis iniciado previamente, ahora enfocado en el estudio del comportamiento de las exportaciones de café. El objetivo general consiste en analizar las series temporales de Miles de dolares que corresponde al valor exportado y Toneladas Métricas que representa el volumen exportado de café, con el fin de identificar patrones temporales, evaluar su estacionariedad y estudiar su estructura de autocorrelación para fundamentar la selección de posibles modelos ARIMA.

El café es uno de los productos más representativos de las exportaciones colombianas, por lo que el análisis de su dinámica temporal resulta relevante tanto a nivel económico como estadístico. Mediante herramientas de análisis exploratorio, gráficos de tendencia y pruebas formales de estacionariedad, se busca comprender la evolución histórica del mercado exportador y preparar las series para modelamiento posterior.

Descripcion de la base de datos. La base de datos utilizada para la segunda parte de este análisis proviene del Departamento Administrativo Nacional de Estadística (DANE), específicamente del portal de Estadísticas de Comercio Internacional, en la sección de exportaciones (https://www.dane.gov.co/index.php/estadisticas-por-tema/comercio-internacional/exportaciones).

A partir de esta fuente oficial se extrajo la información relacionada con la exportación de café, proporcionada para este trabajo.

La base contiene registros mensuales, donde se incluyen las siguientes variables principales:

Fecha del registro (año–mes). Valor FOB (Miles de dólares), correspondiente al valor total exportado de café.

Volumen exportado (Toneladas). En total se tienen 405 observaciones a lo largo del periodo 1992-2025

Estas variables permiten estudiar la evolución temporal del sector cafetero exportador, identificar tendencias, variaciones mensuales y posibles componentes estacionales. A partir de esta estructura se construyen las series temporales y se desarrolla el análisis estadístico correspondiente.

A continuación se muestra como está estructurada la base de datos.

El encabezado de la base de datos permite visualizar como está constituida la base en el cual estan presente las variables de interes que son “Miles de Dólares” y “toneladas Métricas”, cuenta con 405 observaciones en el periodo de enero de 1992 hata septiembrede 2025, una observación por mes.

Luego se realiza un análisis descrivtivo de la base.

Tabla 2. Estadísticos descriptivos de las variables numéricas
Variable	n	media	mediana	sd	min	max
Miles de Dólares FOB	405	168796.3	152099.84	84437.81	39668.45	532665.8
Toneladas Métricas	405	51506.9	50529.96	13661.67	20061.45	113391.0

Los datos muestran que, en 405 observaciones, las exportaciones en miles de dólares FOB tienen una media de 168,796 y una mediana de 152,100, con una desviación estándar de 84,438, indicando gran variabilidad y un sesgo positivo por algunos valores muy altos. Las toneladas métricas presentan una media de 51,507 y mediana de 50,530, con SD de 13,662, mostrando también dispersión pero menos marcada. En ambos casos, la diferencia entre media y mediana sugiere que unos pocos valores elevados influyen en la media, por lo que la mediana podría ser una medida de tendencia central más representativa.

Luego comenzamos con el análisis de las variables, inicialmente con “Miles de Dolares” que corresponde al precio.

se grafica la variable Miles de Dolares.

Y graficamente se puede observa el comportamiento de la variable.

Se realiza Boxplot.

Se muetra la mayoria se los datos concentrado aproximadamente ente 100000 y 200000, con una mediana cercana a 150000, se observan varios valores atípicos por encima del rango intercuartílico.

luego, se determina que distrubución se ajusta mejor a los datos el cual se usa los siguientes criterios utilizados anteriormente:

AIC = -2 * log(verosimilitud) + 2 * k
BIC = -2 * log(verosimilitud) + k * log(n)

Donde:
- k es el número de parámetros del modelo.
- n es el número de observaciones.
- log(verosimilitud) mide qué tan bien se ajusta el modelo a los datos.

Entonces inicialmente se realiza un histograma con curva de densidad para la variable Miles de Dólares.

El histograma acompañado de la curva de densidad, muestra que la distribución es completamente uniforme y unimodal, ya que presenta una zonas de concentración de valores, lo que sugiere un comportamiento ligeramente unimodal.

Ahora se aplica los criterios.La función fitdist() del paquete fitdistrplus en R permite ajustar diferentes distribuciones teóricas a un conjunto de datos continuos o discretos(en este caso continuos), estimando los parámetros de cada distribución mediante métodos de máxima verosimilitud. Su objetivo es identificar qué distribución describe mejor el comportamiento de la variable analizada. Para comparar los modelos ajustados se utilizan criterios estadísticos como el AIC (Akaike Information Criterion) y el BIC (Bayesian Information Criterion), los cuales combinan la calidad del ajuste con una penalización por la complejidad del modelo. En ambos casos, el modelo con el valor más bajo de AIC y BIC se considera el más adecuado, ya que representa un mejor equilibrio entre ajuste y simplicidad, describiendo de forma más precisa la distribución real de los datos.

En el caso de los datos, la que valor mas bajo de AIB y BIC lo presenta es el modelo Log-normal, lo que nos indica que la distribución que mejor se ajusta a estos datos es la Log-normal.

luego se grafica las distibucines para apreciarla de manera visual.

Ahora convirten las variables a series.

Y se grafica la serie.

De manera visual se puede decir que la serie tiende a ser levemente creciente.

luego, para verificar si las series temporales de Miles de Dólares es estacionaria, se aplica el test de KPSS (Kwiatkowski–Phillips–Schmidt–Shin).

## 
##  KPSS Test for Level Stationarity
## 
## data:  precio_serie
## KPSS Level = 3.8105, Truncation lag parameter = 5, p-value = 0.01

El test kpss plantea las siguientes hipótesis:

H₀:La serie es estacionaria).
H₁:La serie no es estacionaria.

El criterio de decisión es el siguiente:

Si el p-valor < 0.05, se rechaza H₀, concluyendo que la serie no es estacionaria.

Si el p-valor ≥ 0.05, no se rechaza H₀, por lo que la serie se considera estacionaria.

En este caso, dado que el p-valor = 0.01 es menor que 0.05, se rechaza la hipótesis nula. por lo tanto, se concluye que la serie precio no es estacionaria..

Debido a que la serie no es estacioaria, se le debe aplicar diferencias para que cumplan con estacionariedad. entonces, queremos saber o determinar cuantas veces hay que diferenciar la serie para que se vuelva estacionaria. La función ndiffs() analiza cada serie y calcula el número mínimo de diferenciaciones necesarias para que la serie se vuelva estacionaria.

## [1] 1

## Diferencias necesarias para Miles de Dólares: 1

Suguiere que por lo menos hay que realiarle una diferencia a la serie para que se aestacioraia.

Antes de realizar la diferencia a la serie para convertirla a estacionaria, se procede a descomponer las serie: Existen dos tipo de descomposición, de manera multiplicativa y de manera aditiva. En este caso se realiza esta ultima.

Se puede analizar el comportamiento interno de la serie, en el cual: - Tendencia (Trend): refleja la evolución general de la serie a lo largo del tiempo.
- Estacionalidad (Seasonal): muestra los patrones que se repiten de forma periódica.
- Residuo (Random): representa la variación aleatoria no explicada por los componentes anteriores.

luego de la descomposición se prosede ahora si a aplicar la diferencia. debido a que el test de kpss nos indicó que al menos se le rebe realizar una diferencia.

luego de que se le realizó la diferencia, se le aplica nuevamente el test de kpss para corroborar si con una diferencia la serie ya es estacionaria.

## 
##  KPSS Test for Level Stationarity
## 
## data:  diferencia_precio
## KPSS Level = 0.10309, Truncation lag parameter = 5, p-value = 0.1

como el p_valor = 0.1 es mayor que 0.05 por lo que no se rechaza la hipótesis nula. lo que nos indica que la serie es estacionaria.

luego se grafica las serie ya siendo estacionaria para ver como es el comportamiento. En este caso, ya se logra identificar patrones visualmente.

luego se realiza la función de autocorrelación (FAC) y la función de autocorrelación parcial (FACP) para la serie estacionaria.

ACF (Autocorrelación) No aparecen barras significativas más allá del primer rezago. Las autocorrelaciones caen rápidamente dentro de las bandas de confianza. PACF (Autocorrelación Parcial) Solo se observa un rezago ligeramente significativo. Los demás rezagos están dentro de los límites, lo que indica poca dependencia residual.

En esta etapa del análisis,al igual que en la parte uno del proyecto, se procederá a comparar distintos modelos de ajuste para las series, con el fin de determinar cuál describe mejor su comportamiento. Para ello, se utilizarán los criterios de información Akaike (AIC) y Bayesiano (BIC), los cuales permiten evaluar la calidad de los modelos considerando tanto el ajuste a los datos como la complejidad del modelo. Un valor menor de AIC o BIC indica un mejor equilibrio entre precisión y simplicidad, por lo que estos indicadores son herramientas fundamentales en la selección de modelos estadísticos.

Primer modelo.

## Series: precio_serie 
## ARIMA(0,1,2) 
## 
## Coefficients:
##           ma1      ma2
##       -0.3638  -0.1834
## s.e.   0.0491   0.0512
## 
## sigma^2 = 1396982201:  log likelihood = -4826.02
## AIC=9658.05   AICc=9658.11   BIC=9670.05

Me indica un ARIMA (0,1,2), como no tiene componente AR de setermina que es un MA de orden 1 y se expresa de la siguiente manera.

\[ X_t = \varepsilon_t + (-0.3638)\varepsilon_{t-1} \]

Segundo modelo.

## Series: precio_serie 
## ARIMA(0,1,2)(0,0,2)[12] 
## 
## Coefficients:
##           ma1      ma2    sma1    sma2
##       -0.3833  -0.1161  0.1575  0.1375
## s.e.   0.0504   0.0545  0.0533  0.0515
## 
## sigma^2 = 1339658906:  log likelihood = -4816.87
## AIC=9643.74   AICc=9643.89   BIC=9663.75

El modelo resultó un SARIMA (0,1,2)(0,0,2)[12], el cual (0,0,2) son los componentes de estacionariedad y [12] es la periosidad.

tercer modelo.

## Series: precio_serie 
## ARIMA(0,1,2)(2,0,0)[12] 
## 
## Coefficients:
##           ma1      ma2    sar1    sar2
##       -0.3952  -0.1010  0.1773  0.1565
## s.e.   0.0510   0.0551  0.0519  0.0517
## 
## sigma^2 = 1320472155:  log likelihood = -4814.18
## AIC=9638.36   AICc=9638.51   BIC=9658.37

El modelo resultó un SARIMA (0,1,2)(2,0,0)[12], el cual (2,0,0) son los componentes de estacionariedad y [12] es la periosidad.

Se analizan los residuos de los modelos. Para el promer modelo.

Se realizan diversas graficas a los residuos del modelo.

De igual manrea los testes para estacionariedad , independencia y normalidad de los residuos.

## 
##  KPSS Test for Level Stationarity
## 
## data:  A
## KPSS Level = 0.19297, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  A
## X-squared = 30.119, df = 13, p-value = 0.004528

## 
##  Shapiro-Wilk normality test
## 
## data:  A
## W = 0.95266, p-value = 0.0000000004152

Los testes nos indica que los residuos de este modelo son estacionarios, no son independiente y no siguien una distribución normal.

Para el segundo modelo.

Gráficas para los residuos el modelo.

Los testes.

## testes estatisticos
# Estacionaridade
kpss.test(B) # hipótese nula: série estacionária

## Warning in kpss.test(B): p-value greater than printed p-value

## 
##  KPSS Test for Level Stationarity
## 
## data:  B
## KPSS Level = 0.16509, Truncation lag parameter = 5, p-value = 0.1

# independencia
Box.test(B, lag = 15, type ="Ljung-Box", fitdf = 2) ## use fitdf=p+q

## 
##  Box-Ljung test
## 
## data:  B
## X-squared = 19.478, df = 13, p-value = 0.109

shapiro.test(B)

## 
##  Shapiro-Wilk normality test
## 
## data:  B
## W = 0.9525, p-value = 0.0000000003947

Los testes nos indica que los residuos de este modelo son estacionarios, independiente pero no siguien una distribución normal.

Para el tercer modelo.

Gráficas para el modelo.

Los testes.

## 
##  KPSS Test for Level Stationarity
## 
## data:  C
## KPSS Level = 0.15633, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  C
## X-squared = 19.085, df = 13, p-value = 0.1205

## 
##  Shapiro-Wilk normality test
## 
## data:  C
## W = 0.95343, p-value = 0.0000000005308

Los testes nos indica que los residuos de este modelo son estacionarios, independiente pero no siguien una distribución normal.

Enconces para la elección del mejor modelo se utiliza el criterio AIC, el qie presente menor valor es el mejor modelo,

Modelo 1:AIC=9658.05 Modelo 2:AIC=9643.74 Modelo 3:AIC=9638.36

Entonces el modelo que se ajusta mejor es el tercero ya que presento el AIC=9638.36 mas bajo de los 3 modelos planteados, el modelo es un SARIMA (0,1,2)(2,0,0)[12]

Luego se procede a realizar la previsión.

El modelo SARIMA(0,1,2)(2,0,0)[12] proyecta una fuerte continuación de la tendencia creciente observada en el período reciente, llevando la serie de tiempo hacia nuevos máximos (superiores a 600.000).

Plantiamiento del problema

Se grafica la serie original con el fin de detectar alguana problematica.

Problema: Al graficar la serie de Miles de Dólares FOB, se observa un pico pronunciado alrededor de 2017, seguido de un descenso hasta 2018, lo que indica un periodo de alta volatilidad en los ingresos por exportaciones de café, posiblemente relacionado con incrementos temporales en los precios internacionales o cambios en la demanda.

Posible causa: Una causa plausible es un excedente de oferta internacional de café durante el año cafetero 2017/18, lo que presionó los precios a la baja. Según la Organización Internacional del Café (OIC), la producción mundial ese año fue muy alta se reportaron 164,81 millones de sacos, generando un superávit que contribuyó a la caída de los precios.

Solución: En mi opinión, para enfrentar la volatilidad observada en los Miles de Dólares FOB entre 2017 y 2018, se podría considerar planificar estrategias de diversificación de mercados o contratos de venta anticipada, de manera que las fluctuaciones de precios internacionales tengan un menor impacto en los ingresos del país.

Luego se procede a analizar la serie Toneladas.

Tambien se grafica la variable Toneladas.

En esta grafica, a diferencia de la anterior se ve una tendencia un poco irregula.

Tambien se realiza el Boxplot para la variable .

El diagrama de caja del revela que la mayor parte de los valores se concentran entre aproximadamente 45000 y 60000 toneladas, lo que indica una variabilidad considerable en la cantidad de exportación de café.

La mediana, ubicada cerca de 50000 toneladas, sugiere que la mitad de los registros se encuentran por debajo de este valor y la otra mitad por encima, lo cual refleja un comportamiento relativamente equilibrado dentro del rango principal de datos.

Sin embargo, se observan varios valores atípicos (outliers) hacia la parte superior del gráfico, correspondientes a volúmenes superiores a 80000 toneladas.

luego, se determina que distrubución se ajusta mejor a los datos el cual se usa los criteriosusados anteriormente. Tambien se realiza el histograma para la variable. El histograma de Toneladas métricas, acompañado de la curva de densidad, muestra que la distribución tiende a ser unimodal. Lo que presenta una zana de consentración de los datos.

Se aplica los criterios para ver cúal distribucíon se ajusta mejor.

En este caso, la distribución que presenta valores más bajo de AIC y AIB es la distribución Gamma, lo que indica que este es el que se ajusta mejor a estos datos.

Se grafica las distribuciones para esta variable.

De manera visual tambien se evidensea que de las ditribuciones la que mejor se ajusta a los datos es la distribución gamma.

Ahora se converte las variable a serie.

Tambien se grafica la serie Toneladas.

luego, para verificar si las series temporales de Toneladas es estacionaria, se aplica el test de KPSS (Kwiatkowski–Phillips–Schmidt–Shin).

## 
##  KPSS Test for Level Stationarity
## 
## data:  toneladas_serie
## KPSS Level = 0.60282, Truncation lag parameter = 5, p-value = 0.02238

Al aplicar el test kpss a la serie volúmen para ver si es estacionaria y esto fue lo que se obtuvo.

El resultado del test para la serie arrojó un p-valor =0.02238.
En este caso, el p-valor tambien es menor que 0.05, por lo que se rechaza la hipótesis nula.
Se concluye que la serie no es estacionaria.

Debido a que la serie no es estacioaria, se le debe aplicar diferencia para que cumplan con estacionariedad. entonces, queremos saber o determinar cuantas veces hay que diferenciar la serie para que se vuelva estacionaria.

## [1] 1

## Diferencias necesarias para Toneladas: 1

Se sugiere que por lomenos se debe realizar una diferencia a cada serie para alcanzar estacionariedad.

Antes de realizar la diferencia a la serie para convertirla a estacionaria, se procede a descomponer la serie.

En esta descomposición, vemos que en la serie la tendencia es irregular.

luego de la descomposición se prosede ahora si a aplicar la diferencia. debido a que el test de kpss nos indicó que al menos se le rebe realizar una diferencia.

Y de igual manera para corroborar si fue suficiente una diferencia para alcanzar estacionariedad, se le aplica a esta serie el test de kpss.

## 
##  KPSS Test for Level Stationarity
## 
## data:  diferencia_toneladas
## KPSS Level = 0.026292, Truncation lag parameter = 5, p-value = 0.1

Como el p-valor = 0.1 es mayor que 0.05 entonces no se rechaza la hipótesis nula, lo que nos indica que efectivamente una disferencia fue suficiente ya que la serie es estacionaria.

Luego se grafica las serie ya siendo estacionaria para ver como es el comportamiento.

Y de igual manera se aprecia el comportamiento de esta serie de manera grafica.

luego realizamos la función de autocorrelación (FAC) y la función de autocorrelación parcial (FACP) para la serie estacionaria.

El comportamiento simultáneo de ACF y PACF indica que: La serie ya quedó estacionaria después de diferenciarla. No se observa estructura AR ni MA importante.

Se procederá a comparar distintos modelos de ajuste para las series, con el fin de determinar cuál describe mejor su comportamiento

Modelo 1

## Series: toneladas_serie 
## ARIMA(1,1,1) 
## 
## Coefficients:
##          ar1      ma1
##       0.3720  -0.8975
## s.e.  0.0555   0.0240
## 
## sigma^2 = 106070392:  log likelihood = -4305.62
## AIC=8617.23   AICc=8617.29   BIC=8629.24

Me indica un ARIMA (1,1,1), como tiene AR 1 y MA de orden 1 y se expresa de la siguiente manera.

\[ X_t = (- 0.3720) X_{t-1} + \varepsilon_t + (-0.8975) \varepsilon_{t-1} \]

Modelo 2

## Series: toneladas_serie 
## ARIMA(1,1,1)(0,0,2)[12] 
## 
## Coefficients:
##          ar1      ma1    sma1    sma2
##       0.3198  -0.8916  0.2163  0.2257
## s.e.  0.0594   0.0287  0.0510  0.0488
## 
## sigma^2 = 94385590:  log likelihood = -4281.81
## AIC=8573.62   AICc=8573.77   BIC=8593.62

El modelo resultó un SARIMA (1,1,1)(0,0,2)[12], el cual (0,0,2) son los componentes de estacionariedad y [12] es la periosidad.

Modelo 3

## Series: toneladas_serie 
## ARIMA(1,1,1)(2,0,0)[12] 
## 
## Coefficients:
##          ar1      ma1    sar1    sar2
##       0.2659  -0.8685  0.2462  0.2583
## s.e.  0.0641   0.0337  0.0491  0.0509
## 
## sigma^2 = 90122534:  log likelihood = -4273.16
## AIC=8556.32   AICc=8556.47   BIC=8576.33

El modelo resultó un SARIMA (1,1,1)(2,0,0)[12], el cual (2,0,0) son los componentes de estacionariedad y [12] es la periosidad.

luego se analizan los residuos para cada modelo planteado.

Para el modelo 1

Se realizan gráficas que representan el comportamiento de los residuos del modelo.

Tambien los testes.

## testes estatisticos
# Estacionaridade
kpss.test(X) # hipótese nula: série estacionária

## Warning in kpss.test(X): p-value greater than printed p-value

## 
##  KPSS Test for Level Stationarity
## 
## data:  X
## KPSS Level = 0.27207, Truncation lag parameter = 5, p-value = 0.1

# independencia
Box.test(X, lag = 15, type ="Ljung-Box", fitdf = 2) ## use fitdf=p+q

## 
##  Box-Ljung test
## 
## data:  X
## X-squared = 61.68, df = 13, p-value = 0.00000002625

shapiro.test(X)

## 
##  Shapiro-Wilk normality test
## 
## data:  X
## W = 0.98073, p-value = 0.00003184

Los testes de dictan que los residuos para este modelo son estacioraios pero no siguen una distribución normal y tampoco son independiente.

Para el modelo 2.

Se realiza diversas graficas tambien.

Tambien los testes.

## 
##  KPSS Test for Level Stationarity
## 
## data:  Y
## KPSS Level = 0.17312, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  Y
## X-squared = 20.22, df = 13, p-value = 0.08986

## 
##  Shapiro-Wilk normality test
## 
## data:  Y
## W = 0.97861, p-value = 0.00001081

En este caso los residuos de este modelo son estacionarios, independiente pero no diguen una distribución normal.

Para el modelo 3

De la misma manera que en los residuos de los modelos anteriores, se realiza diversas gráficas. Tambien los testes.

## 
##  KPSS Test for Level Stationarity
## 
## data:  Z
## KPSS Level = 0.092006, Truncation lag parameter = 5, p-value = 0.1

## 
##  Box-Ljung test
## 
## data:  Z
## X-squared = 17.258, df = 13, p-value = 0.1878

## 
##  Shapiro-Wilk normality test
## 
## data:  Z
## W = 0.97971, p-value = 0.00001875

Lo mismo que el anterior, los residuos de este modelo son estacionarios, independiente pero no diguen una distribución normal.

Debido a esto, se utiliza el criterio AIC para determinar el mejor modelo elcual el modelo con menor valor de AIC es el tercer modelo con un valor de 8556.32, el mas bajo de los 3 modelos planteado. Un modelo SARIMA (1,1,1)(2,0,0)[12]

Se realiza la previsión.

En esta prevision se aprecia que sigue el patrón historico, pero de una manera mas suave debido a que la serie se diferencio para volverla estacioraia.

El pronóstico indica que, después de un historial de fuertes altibajos, el volumen de Toneladas Métricas se espera que se mantenga estable en el futuro, cerca de las 60.000 unidades. El gráfico no predice grandes subidas ni caídas drásticas, sino que espera que proceso se estabilice en sus niveles promedio recientes.

Plantiamiento de problema.

Para identificar un problema graficamois la serie original para observar algun comportamiento irregular.

Problema: A partir de 2020, la serie de Toneladas Métricas muestra una tendencia decreciente, indicando que la cantidad de café exportado ha ido disminuyendo.

Posible causa: Esta caída podría estar relacionada con factores climáticos, plagas, enfermedades del cultivo o afectaciones logísticas derivadas de la pandemia de COVID-19, que impactaron negativamente la producción y la capacidad de exportación.

Solución: En mi opinión, para contrarrestar esta disminución se podría implementar programas de asistencia técnica a los caficultores, estrategias de prevención de plagas y enfermedades, y apoyo logístico para garantizar la exportación, con lo cual se podría aumentar la producción y estabilizar la cantidad de café exportada en los años siguientes.

Comclusión

En conclusión, el análisis de las cuatro series de tiempo permitió aplicar de manera integral los conceptos y herramientas aprendidos en clase, incluyendo la identificación de tendencias, estacionalidad, volatilidad y la presencia de valores atípicos. La visualización y el estudio de cada serie revelaron patrones específicos, como picos y caídas asociados a factores económicos, climáticos o logísticos, que proporcionan un contexto real al comportamiento de los datos. Asimismo, la aplicación de técnicas de suavización, diferenciación y autocorrelación facilitó una comprensión más profunda de la dinámica temporal de cada variable, evidenciando la importancia de combinar métodos estadísticos con interpretación contextual para obtener conclusiones sólidas. Este ejercicio no solo reforzó las habilidades técnicas adquiridas en la materia, sino que también permitió desarrollar un enfoque crítico y analítico frente a fenómenos temporales complejos, fortaleciendo la capacidad de tomar decisiones informadas basadas en series de tiempo.

Referencias Bibliograficas

Ministerio de Agricultura y Desarrollo Rural. (2010). CONPES 3675 – Política para mejorar la competitividad del sector lácteo. Disponible en: (https://www.minagricultura.gov.co/ministerio/direcciones/Documents/d.angie/conpes%203675.pdf)

Kwiatkowski, D., Phillips, P. C., Schmidt, P., & Shin, Y. (1992). Testing the null hypothesis of stationarity against the alternative of a unit root: How sure are we that economic time series have a unit root?. Journal of econometrics, 54(1-3), 159-178. https://elischolar.library.yale.edu/cgi/viewcontent.cgi?article=2221&context=cowles-discussion-paper-series

Luceño, A., & Peña, D. (2008). Autoregressive integrated moving average (ARIMA) modeling. Encyclopedia of Statistics in Quality and Reliability. https://scholar.google.com/scholar?hl=es&q=Luce%C3%B1o+2008+ARIMA+Wiley

Ministerio de Agricultura y Desarrollo Rural. Informe del Programa de Alimentación Bovina / Producción Pecuaria. (s. f.). Documento de gestión sobre la variabilidad climática y su impacto en el ganado bovino. Disponible en: (https://www.minagricultura.gov.co/planeacion-control-gestion/Gestin/PLANEACION/Informes_de_Empalme/Informe%20Ministro%20Zuluaga-Final.pdf)

International Coffee Organization (OIC). (2018). Coffee Market Report: September 2018. Recuperado de (https://www.ico.org/documents/cy2017-18/cmr-0918-c.pdf)

PROYECTO SERIE

Manuel Julian Romero Pedroza

2025-11-23