Analizar series temporales resulta crucial en la estadística práctica, ya que nos da la posibilidad de observar la evolución de una variable a lo largo del tiempo para así identificar modelos, tendencias y posibles modificaciones en su estructura. Este tipo de análisis ayuda a entender cómo progresan los sucesos económicos, sociales o de producción, además de generar pronósticos que sirven de base para tomar decisiones informadas a partir de datos reales.
El presente proyecto tiene como objetivo analizar el comportamiento de diferentes variables cuantitativas a lo largo del tiempo mediante el uso de técnicas de análisis de series temporales. Para ello, se seleccionarán cuatro bases de datos provenientes de fuentes oficiales y confiables, entre ellas el Ministerio de Agricultura, Agronet y otras entidades públicas. Dos de estas bases corresponden al cultivo de Lulo y de Banano, las cuales contienen información sobre la producción y el área cultivada a nivel nacional en distintos periodos. Estas series permiten observar la evolución de la actividad agrícola, identificar tendencias, variaciones estacionales y posibles cambios estructurales a lo largo de los años en la producción del fruto.
La agricultura colombiana representa un pilar fundamental en la economía nacional, siendo el Banano y el Lulo dos cultivos de especial importancia tanto para el mercado interno como para la exportación. El Banano es uno de los principales productos de exportación agrícola, mientras que el Lulo, siendo una fruta típicamente andina, tiene un creciente potencial en mercados internacionales.
El objetivo principal del análisis de las variables temporales relacionadas con la producción agrícola del cultivo de Lulo y Banano en Colombia, fue identificar la evolución de las series a lo largo del tiempo, analizar su comportamiento estadístico y evaluar la presencia de tendencias o patrones significativos.
El estudio se desarrolla en varias etapas. En primer lugar, se realizó la revisión, limpieza y organización de los datos, verificando la calidad de la información y asegurando la correcta organización temporal de las observaciones. Además se llevó a cabo un diccionario de las variables en las bases de datos, donde se listó el significado de cada una de ellas para saber su naturaleza.
Posteriormente, se efectuó un análisis descriptivo inicial de la variable analizada: Producción (ton). Para ello, se calcularon medidas de tendencia central (media, mediana y moda) y medidas de dispersión (varianza, desviación estándar y rango), con el fin de obtener una visión general del comportamiento de las series en el periodo analizado. Además, se construyeron gráficos de línea que permiten visualizar de manera clara la evolución temporal de cada variable, identificando posibles fluctuaciones, picos de crecimiento o caídas en la producción.
A continuación se listan cada una de las variables de estudio de las bases de datos.
Cuantitativa.
Año: Corresponde al periodo temporal en el que se registran los datos de producción agrícola, indicando el año calendario (2007-2023).
Área (ha): Representa la superficie total cultivada con el producto correspondiente durante el año indicado, se mide en hectáreas (ha) y refleja la extensión territorial dedicada al cultivo.
Producción (ton): Expresa la cantidad total producida del cultivo durante el año, medida en toneladas (ton), indicando el volumen de producción agrícola alcanzado por el cultivo en cada departamento o a nivel nacional.
Rendimiento (ha/ton): Relación entre la producción total y el área cultivada. Mide la eficiencia productiva del cultivo, es decir, cuántas toneladas se producen por hectárea sembrada. Un valor más alto indica un mejor desempeño agrícola.
Producción Nacional (ton): Representa la producción total nacional del cultivo en toneladas, sumando los aportes de todos los departamentos, permitiendo analizar la tendencia de la producción a nivel país, comparando el comportamiento regional con el agregado nacional.
Área Nacional (ha): Total de hectáreas cultivadas con el producto en todo el territorio nacional durante el año correspondiente, indicando la extensión nacional dedicada al cultivo, útil para comparar el crecimiento o reducción del área sembrada a través del tiempo.
Cualitativa. Producto: Indica el cultivo o producto agrícola al cual pertenecen los datos (Lulo-Banano).
Departamento: Hace referencia a la división político-administrativa del país en la cual se registra la información, perimitiendo identificar la ubicación geográfica de la producción o del área cultivada.
El análisis detallado de las series temporales correspondientes a la producción de banano y lulo permite identificar el comportamiento general de ambas variables, su nivel de dispersión y como aumenta o disminuye la cosecha a lo largo del tiempo.
## vars n mean sd median trimmed mad min max range skew
## X1 1 317 22866.4 75829.94 9518.2 13327.4 12887.06 0.92 1246011 1246010 13.69
## kurtosis se
## X1 212.66 4259.03
## vars n mean sd median trimmed mad min max range skew
## X1 1 354 3641.1 4040.51 2272.52 2826.58 2549.29 42 22272.48 22230.48 1.98
## kurtosis se
## X1 4.06 214.75
Se puede observar que: en el caso del banano, los resultados muestran una media de 22.866 toneladas y una mediana de 9.518 toneladas, evidenciando una fuerte asimetría positiva. Esto indica la existencia de algunos años con producciones excepcionalmente altas que elevan el promedio general. La desviación estándar (75.829 toneladas) refleja una gran variabilidad en la serie, mientras que los valores de skewness (13,69) y kurtosis (212,66) confirman la presencia de picos extremos y una distribución muy concentrada, lo que sugiere fluctuaciones abruptas posiblemente asociadas a factores climáticos, de mercado o de política agrícola.
Por otra parte, la producción de lulo presenta una media de 3.641 toneladas y una mediana de 2.272 toneladas, con una asimetría positiva moderada y una variabilidad menor (desviación estándar de 4.040 toneladas). Los valores de skewness (1,98) y kurtosis (4,06) indican una distribución más equilibrada y estable en comparación con el banano. En general, el lulo muestra un comportamiento más constante a lo largo del tiempo, mientras que el banano presenta una mayor volatilidad con picos de producción muy marcados.
La gráfica de barras de la producción total de banano muestra que entre 2007 y 2016 la producción se mantuvo relativamente estable, con un leve crecimiento. En 2017–2018 se registra un aumento abrupto, superando los 2 millones de toneladas, lo que podría responder a un evento excepcional, un cambio en la producción o una posible inconsistencia en los datos. A partir de 2019, la serie vuelve a niveles previos con una tendencia moderadamente creciente.
La gráfica, que representa la producción total de lulo por año, muestra
una tendencia de crecimiento sostenido entre 2007 y 2023. Se observa
que, aunque la producción inicia en niveles moderados durante los
primeros años, a partir de 2012 comienza un incremento constante que se
mantiene hasta alcanzar su punto más alto en 2023. Esto sugiere una
expansión progresiva del cultivo, posiblemente impulsada por mejoras en
las prácticas agrícolas, mayor demanda o incremento en el área
cultivada. En general, la producción de lulo presenta una evolución
estable y ascendente, sin picos abruptos ni caídas significativas.
## `geom_smooth()` using formula = 'y ~ x'
En contraste, la gráfica de tendencia de la producción de banano revela un comportamiento mucho más irregular. Aunque la mayoría de los años registran valores relativamente estables, existe un punto atípico muy notorio en 2017–2018, donde la producción supera ampliamente el millón de toneladas. Este valor excepcional podría corresponder a un registro atípico o a un evento puntual, ya sea por una cosecha extraordinaria o una inconsistencia en los datos. Fuera de este pico, la serie muestra una tendencia general de estabilidad con ligeras variaciones interanuales.
## `geom_smooth()` using formula = 'y ~ x'
La tendencia de la producción de lulo, mostrada en el gráfico de dispersión, refuerza la evidencia de un crecimiento paulatino y sostenido. Se aprecia una mayor concentración de puntos en niveles bajos durante los primeros años, y una expansión progresiva hacia valores más altos en los años recientes. Este comportamiento sugiere que la producción ha ido aumentando tanto en cantidad como en estabilidad, con menos dispersión relativa en los años finales, lo que denota una posible consolidación del cultivo.
El boxplot de producción de banano evidencia la presencia de varios valores atípicos (outliers), particularmente entre 2017 y 2018, los cuales confirman la existencia de años con producciones excepcionalmente altas. La mayor parte de los datos se concentran en niveles bajos, con una distribución sesgada hacia la derecha, lo que refuerza la idea de una serie con alta variabilidad y casos extremos.
Esta figura, muestra una distribución más equilibrada y un incremento
gradual en la mediana a lo largo del tiempo. Aunque se presentan algunos
valores atípicos, estos son moderados en comparación con el banano.
Además, el ensanchamiento de las cajas en los años recientes sugiere una
ligera ampliación en la variabilidad de la producción, lo cual puede
estar asociado a la expansión del cultivo y a factores agroclimáticos
que afectan su rendimiento.
La serie temporal de la producción de banano muestra un comportamiento altamente irregular, con una marcada presencia de un pico extremo en el punto central de la serie. Este valor atípico supera ampliamente las 1.200.000 toneladas, lo que distorsiona la escala del gráfico y resalta una anomalia significativa en comparación con el resto del período.
En resumen, el análisis de la serie temporal revela que la producción de banano presenta alta volatilidad y la existencia de valores atípicos extremos, lo que indica la necesidad de realizar una depuración de datos o un ajuste antes de aplicar modelos de pronóstico, como ARIMA, para evitar distorsiones en los resultados.
La serie temporal de la producción de lulo muestra un comportamiento más estable y menos extremo que la del banano, aunque mantiene fluctuaciones cíclicas notables a lo largo del tiempo. Se observan picos recurrentes de producción que alcanzan valores entre 10.000 y 20.000 toneladas, seguidos por descensos pronunciados, lo que indica la existencia de variaciones estacionales o interanuales en los niveles de producción.
## Warning in adf.test(ts_banano): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: ts_banano
## Dickey-Fuller = -6.9755, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary
##
## #######################
## # KPSS Unit Root Test #
## #######################
##
## Test is of type: mu with 5 lags.
##
## Value of test-statistic is: 0.2512
##
## Critical value for a significance level of:
## 10pct 5pct 2.5pct 1pct
## critical values 0.347 0.463 0.574 0.739
## Warning in adf.test(ts_lulo): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: ts_lulo
## Dickey-Fuller = -11.592, Lag order = 7, p-value = 0.01
## alternative hypothesis: stationary
##
## #######################
## # KPSS Unit Root Test #
## #######################
##
## Test is of type: mu with 5 lags.
##
## Value of test-statistic is: 1.4986
##
## Critical value for a significance level of:
## 10pct 5pct 2.5pct 1pct
## critical values 0.347 0.463 0.574 0.739
El valor del estadístico KPSS (1.4986) supera los valores críticos a todos los niveles de significancia, lo que lleva a rechazar la hipótesis nula de estacionariedad y concluir que la serie no es estacionaria. Sin embargo, este resultado contrasta con la prueba ADF, que sí sugiere estacionariedad. Esta diferencia indica que la serie podría ser cuasi estacionaria o presentar una ligera tendencia temporal. En términos prácticos, se recomienda aplicar una diferenciación simple (d = 1) antes de ajustar el modelo ARIMA, con el fin de asegurar el cumplimiento de los supuestos de estacionariedad del modelo.
Las funciones de autocorrelación (FAC) y autocorrelación parcial (FACP)
de la producción de banano permiten identificar la estructura temporal
de la serie. En la FAC, se observa un pico inicial muy alto en el rezago
0, seguido de correlaciones rápidamente decrecientes, lo que indica una
fuerte dependencia temporal inmediata, pero sin una estructura
persistente a largo plazo. Algunos rezagos (como el 10 y el 20) muestran
ligeras correlaciones significativas, posiblemente relacionadas con
patrones estacionales o efectos cíclicos débiles.
Por su parte, la FACP muestra un valor significativo alrededor del rezago 10, mientras que los demás rezagos se mantienen dentro de los límites de significancia. Esto sugiere que el componente autorregresivo (AR) de la serie podría ser de bajo orden, posiblemente con un comportamiento tipo AR(1) o con un rezago más específico asociado a ciclos productivos anuales o bianuales.
En conjunto, los resultados apuntan a una serie con poca persistencia temporal, pero con picos aislados de autocorrelación que podrían ser capturados por un modelo ARIMA sencillo tras aplicar la diferenciación correspondiente.
En el gráfico de la FAC, se observa una autocorrelación significativa en el primer rezago, además de picos notables en los rezagos 10 y 21, lo que sugiere la presencia de un patrón cíclico o estacional. La FACP muestra un comportamiento similar, con un pico importante alrededor del rezago 21, lo que refuerza la posibilidad de una componente estacional o de periodicidad en la serie.
Este patrón indica que la serie presenta una estructura temporal persistente, por lo que podría beneficiarse de una diferenciación simple o estacional antes del ajuste de un modelo ARIMA.
En la gráfica de la primera diferencia de la producción de banano se observa que la serie presenta una fuerte variación alrededor del año 2018, con un cambio abrupto en los valores que podría corresponder a un evento atípico o a una corrección importante en los datos. A pesar de este pico, la mayoría de las variaciones anuales se mantienen cercanas a cero, lo que sugiere que, tras la diferenciación, la serie elimina en gran parte su tendencia y se estabiliza en torno a una media constante. Esto indica que la primera diferenciación logra transformar la serie original en una forma más estacionaria, adecuada para el modelado ARIMA.
En la gráfica de la primera diferencia de la producción de lulo se aprecia que las fluctuaciones en los cambios anuales son más regulares y de menor magnitud relativa. La serie oscila de manera alternada entre incrementos y disminuciones, manteniendo una variabilidad estable a lo largo del tiempo. Esto evidencia que la diferenciación también ha eliminado la tendencia presente en la serie original, logrando una serie más estacionaria, con variaciones en torno a cero y sin patrones persistentes de crecimiento o decrecimiento.
## Warning in kpss.test(serie_banano, null = "Level"): p-value greater than
## printed p-value
##
## KPSS Test for Level Stationarity
##
## data: serie_banano
## KPSS Level = 0.010037, Truncation lag parameter = 5, p-value = 0.1
## Series: ts_banano
## ARIMA(0,0,0) with non-zero mean
##
## Coefficients:
## mean
## 22866.399
## s.e. 4252.231
##
## sigma^2 = 5.75e+09: log likelihood = -4011.19
## AIC=8026.39 AICc=8026.43 BIC=8033.9
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 6.684195e-12 75710.24 23368.8 -17070.4 17093.43 0.7750126
## ACF1
## Training set 0.05573607
## Series: ts_lulo
## ARIMA(0,1,1)
##
## Coefficients:
## ma1
## -0.9821
## s.e. 0.0077
##
## sigma^2 = 16116284: log likelihood = -3431.13
## AIC=6866.26 AICc=6866.3 BIC=6874
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 360.1621 4003.153 2761.406 -288.9957 322.3024 0.775721 0.023628