Analizar series temporales resulta crucial en la estadística práctica, ya que nos da la posibilidad de observar la evolución de una variable a lo largo del tiempo para así identificar modelos, tendencias y posibles modificaciones en su estructura. Este tipo de análisis ayuda a entender cómo progresan los sucesos económicos, sociales o de producción, además de generar pronósticos que sirven de base para tomar decisiones informadas a partir de datos reales.
El análisis se centra en el comportamiento de diversas variables cuantitativas a lo largo del tiempo mediante técnicas de series temporales. Para ello se emplean cuatro bases de datos provenientes de fuentes oficiales y confiables, entre ellas el Ministerio de Agricultura, Agronet y otras entidades públicas. Dos de estas bases contienen información relacionada con los cultivos de lulo y banano, específicamente sobre la producción y el área sembrada en diferentes periodos. Las restantes corresponden a reportes financieros del sector bancario, que incluyen el número de clientes y el total de desembolsos realizados.
El conjunto de estas series permite examinar, desde una perspectiva integral, la evolución de la actividad agrícola en el país y las dinámicas financieras asociadas. A partir de los datos agrícolas es posible identificar comportamientos de crecimiento, caída o estancamiento en la producción, así como variaciones en la superficie cultivada, lo cual refleja cambios en la demanda, las condiciones climáticas, las decisiones de siembra o la disponibilidad de recursos. Por su parte, las series financieras proporcionan una visión complementaria del movimiento económico, permitiendo observar fluctuaciones en la cartera, el acceso a servicios financieros y la estabilidad o volatilidad de los desembolsos.
El uso de series temporales facilita la detección de tendencias de largo plazo, patrones estacionales recurrentes y posibles cambios estructurales tanto en los cultivos como en el comportamiento financiero. Esta combinación de información agrícola y financiera ofrece un panorama más completo para comprender cómo evolucionan simultáneamente la producción agropecuaria y el dinamismo económico asociado a ella.
El objetivo principal del análisis de las variables temporales relacionadas con la producción agrícola del cultivo de Lulo y Banano en Colombia, fue identificar la evolución de las series a lo largo del tiempo, analizar su comportamiento estadístico y evaluar la presencia de tendencias o patrones significativos.
El estudio se desarrolla en varias etapas. En primer lugar, se realizó la revisión, limpieza y organización de los datos, verificando la calidad de la información y asegurando la correcta organización temporal de las observaciones. Además se llevó a cabo un diccionario de las variables en las bases de datos, donde se listó el significado de cada una de ellas para saber su naturaleza.
Posteriormente, se efectuó un análisis descriptivo inicial de la variable analizada: Producción (ton). Para ello, se calcularon medidas de tendencia central (media, mediana y moda) y medidas de dispersión (varianza, desviación estándar y rango), con el fin de obtener una visión general del comportamiento de las series en el periodo analizado. Además, se construyeron gráficos de línea que permiten visualizar de manera clara la evolución temporal de cada variable, identificando posibles fluctuaciones, picos de crecimiento o caídas en la producción.
A continuación se listan cada una de las variables de estudio de las bases de datos.
Cuantitativa.
Año: Corresponde al periodo temporal en el que se registran los datos de producción agrícola, indicando el año calendario (2007-2023).
Área (ha): Representa la superficie total cultivada con el producto correspondiente durante el año indicado, se mide en hectáreas (ha) y refleja la extensión territorial dedicada al cultivo.
Producción (ton): Expresa la cantidad total producida del cultivo durante el año, medida en toneladas (ton), indicando el volumen de producción agrícola alcanzado por el cultivo en cada departamento o a nivel nacional.
Rendimiento (ha/ton): Relación entre la producción total y el área cultivada. Mide la eficiencia productiva del cultivo, es decir, cuántas toneladas se producen por hectárea sembrada. Un valor más alto indica un mejor desempeño agrícola.
Producción Nacional (ton): Representa la producción total nacional del cultivo en toneladas, sumando los aportes de todos los departamentos, permitiendo analizar la tendencia de la producción a nivel país, comparando el comportamiento regional con el agregado nacional.
Área Nacional (ha): Total de hectáreas cultivadas con el producto en todo el territorio nacional durante el año correspondiente, indicando la extensión nacional dedicada al cultivo, útil para comparar el crecimiento o reducción del área sembrada a través del tiempo.
Cualitativa. Producto: Indica el cultivo o producto agrícola al cual pertenecen los datos (Lulo-Banano).
Departamento: Hace referencia a la división político-administrativa del país en la cual se registra la información, perimitiendo identificar la ubicación geográfica de la producción o del área cultivada.
El análisis detallado de las series temporales correspondientes a la producción de banano y lulo permite identificar el comportamiento general de ambas variables, su nivel de dispersión y como aumenta o disminuye la cosecha a lo largo del tiempo.
## vars n mean sd median trimmed mad min max range skew
## X1 1 317 22866.4 75829.94 9518.2 13327.4 12887.06 0.92 1246011 1246010 13.69
## kurtosis se
## X1 212.66 4259.03
## vars n mean sd median trimmed mad min max range skew
## X1 1 354 3641.1 4040.51 2272.52 2826.58 2549.29 42 22272.48 22230.48 1.98
## kurtosis se
## X1 4.06 214.75
Se puede observar que: en el caso del banano, los resultados muestran una media de 22.866 toneladas y una mediana de 9.518 toneladas, evidenciando una fuerte asimetría positiva. Esto indica la existencia de algunos años con producciones excepcionalmente altas que elevan el promedio general. La desviación estándar (75.829 toneladas) refleja una gran variabilidad en la serie, mientras que los valores de skewness (13,69) y kurtosis (212,66) confirman la presencia de picos extremos y una distribución muy concentrada, lo que sugiere fluctuaciones abruptas posiblemente asociadas a factores climáticos, de mercado o de política agrícola.
Por otra parte, la producción de lulo presenta una media de 3.641 toneladas y una mediana de 2.272 toneladas, con una asimetría positiva moderada y una variabilidad menor (desviación estándar de 4.040 toneladas). Los valores de skewness (1,98) y kurtosis (4,06) indican una distribución más equilibrada y estable en comparación con el banano. En general, el lulo muestra un comportamiento más constante a lo largo del tiempo, mientras que el banano presenta una mayor volatilidad con picos de producción muy marcados.
La gráfica de barras de la producción total de banano muestra que entre 2007 y 2016 la producción se mantuvo relativamente estable, con un leve crecimiento. En 2017–2018 se registra un aumento abrupto, superando los 2 millones de toneladas, lo que podría responder a un evento excepcional, un cambio en la producción o una posible inconsistencia en los datos. A partir de 2019, la serie vuelve a niveles previos con una tendencia moderadamente creciente.
La gráfica, que representa la producción total de lulo por año, muestra una tendencia de crecimiento sostenido entre 2007 y 2023. Se observa que, aunque la producción inicia en niveles moderados durante los primeros años, a partir de 2012 comienza un incremento constante que se mantiene hasta alcanzar su punto más alto en 2023. Esto sugiere una expansión progresiva del cultivo, posiblemente impulsada por mejoras en las prácticas agrícolas, mayor demanda o incremento en el área cultivada. En general, la producción de lulo presenta una evolución estable y ascendente, sin picos abruptos ni caídas significativas.
## `geom_smooth()` using formula = 'y ~ x'
En contraste, la gráfica de tendencia de la producción de banano revela un comportamiento mucho más irregular. Aunque la mayoría de los años registran valores relativamente estables, existe un punto atípico muy notorio en 2017–2018, donde la producción supera ampliamente el millón de toneladas. Este valor excepcional podría corresponder a un registro atípico o a un evento puntual, ya sea por una cosecha extraordinaria o una inconsistencia en los datos. Fuera de este pico, la serie muestra una tendencia general de estabilidad con ligeras variaciones interanuales.
## `geom_smooth()` using formula = 'y ~ x'
La tendencia de la producción de lulo, mostrada en el gráfico de dispersión, refuerza la evidencia de un crecimiento paulatino y sostenido. Se aprecia una mayor concentración de puntos en niveles bajos durante los primeros años, y una expansión progresiva hacia valores más altos en los años recientes. Este comportamiento sugiere que la producción ha ido aumentando tanto en cantidad como en estabilidad, con menos dispersión relativa en los años finales, lo que denota una posible consolidación del cultivo.
El boxplot de producción de banano evidencia la presencia de varios valores atípicos (outliers), particularmente entre 2017 y 2018, los cuales confirman la existencia de años con producciones excepcionalmente altas. La mayor parte de los datos se concentran en niveles bajos, con una distribución sesgada hacia la derecha, lo que refuerza la idea de una serie con alta variabilidad y casos extremos.
Esta figura, muestra una distribución más equilibrada y un incremento gradual en la mediana a lo largo del tiempo. Aunque se presentan algunos valores atípicos, estos son moderados en comparación con el banano. Además, el ensanchamiento de las cajas en los años recientes sugiere una ligera ampliación en la variabilidad de la producción, lo cual puede estar asociado a la expansión del cultivo y a factores agroclimáticos que afectan su rendimiento.
La serie temporal de la producción de banano muestra un comportamiento altamente irregular, con una marcada presencia de un pico extremo en el punto central de la serie. Este valor atípico supera ampliamente las 1.200.000 toneladas, lo que distorsiona la escala del gráfico y resalta una anomalia significativa en comparación con el resto del período.
En resumen, el análisis de la serie temporal revela que la producción de banano presenta alta volatilidad y la existencia de valores atípicos extremos, lo que indica la necesidad de realizar una depuración de datos o un ajuste antes de aplicar modelos de pronóstico, como ARIMA, para evitar distorsiones en los resultados.
La serie temporal de la producción de lulo muestra un comportamiento más estable y menos extremo que la del banano, aunque mantiene fluctuaciones cíclicas notables a lo largo del tiempo. Se observan picos recurrentes de producción que alcanzan valores entre 10.000 y 20.000 toneladas, seguidos por descensos pronunciados, lo que indica la existencia de variaciones estacionales o interanuales en los niveles de producción.
##
## Augmented Dickey-Fuller Test
##
## data: ts_banano
## Dickey-Fuller = -2.9451, Lag order = 2, p-value = 0.2123
## alternative hypothesis: stationary
##
## #######################
## # KPSS Unit Root Test #
## #######################
##
## Test is of type: mu with 2 lags.
##
## Value of test-statistic is: 0.273
##
## Critical value for a significance level of:
## 10pct 5pct 2.5pct 1pct
## critical values 0.347 0.463 0.574 0.739
##
## Augmented Dickey-Fuller Test
##
## data: ts_lulo
## Dickey-Fuller = -2.4299, Lag order = 2, p-value = 0.4086
## alternative hypothesis: stationary
##
## #######################
## # KPSS Unit Root Test #
## #######################
##
## Test is of type: mu with 2 lags.
##
## Value of test-statistic is: 0.0982
##
## Critical value for a significance level of:
## 10pct 5pct 2.5pct 1pct
## critical values 0.347 0.463 0.574 0.739
El valor del estadístico KPSS (1.4986) supera los valores críticos a todos los niveles de significancia, lo que lleva a rechazar la hipótesis nula de estacionariedad y concluir que la serie no es estacionaria. Sin embargo, este resultado contrasta con la prueba ADF, que sí sugiere estacionariedad. Esta diferencia indica que la serie podría ser cuasi estacionaria o presentar una ligera tendencia temporal. En términos prácticos, se recomienda aplicar una diferenciación simple (d = 1) antes de ajustar el modelo ARIMA, con el fin de asegurar el cumplimiento de los supuestos de estacionariedad del modelo.
Las funciones de autocorrelación (FAC) y autocorrelación parcial (FACP) de la producción de banano permiten identificar la estructura temporal de la serie. En la FAC, se observa un pico inicial muy alto en el rezago 0, seguido de correlaciones rápidamente decrecientes, lo que indica una fuerte dependencia temporal inmediata, pero sin una estructura persistente a largo plazo. Algunos rezagos (como el 10 y el 20) muestran ligeras correlaciones significativas, posiblemente relacionadas con patrones estacionales o efectos cíclicos débiles.
Por su parte, la FACP muestra un valor significativo alrededor del rezago 10, mientras que los demás rezagos se mantienen dentro de los límites de significancia. Esto sugiere que el componente autorregresivo (AR) de la serie podría ser de bajo orden, posiblemente con un comportamiento tipo AR(1) o con un rezago más específico asociado a ciclos productivos anuales o bianuales.
En conjunto, los resultados apuntan a una serie con poca persistencia temporal, pero con picos aislados de autocorrelación que podrían ser capturados por un modelo ARIMA sencillo tras aplicar la diferenciación correspondiente.
En el gráfico de la FAC, se observa una autocorrelación significativa en el primer rezago, además de picos notables en los rezagos 10 y 21, lo que sugiere la presencia de un patrón cíclico o estacional. La FACP muestra un comportamiento similar, con un pico importante alrededor del rezago 21, lo que refuerza la posibilidad de una componente estacional o de periodicidad en la serie.
Este patrón indica que la serie presenta una estructura temporal persistente, por lo que podría beneficiarse de una diferenciación simple o estacional antes del ajuste de un modelo ARIMA.
En la gráfica de la primera diferencia de la producción de banano se observa que la serie presenta una fuerte variación alrededor del año 2018, con un cambio abrupto en los valores que podría corresponder a un evento atípico o a una corrección importante en los datos. A pesar de este pico, la mayoría de las variaciones anuales se mantienen cercanas a cero, lo que sugiere que, tras la diferenciación, la serie elimina en gran parte su tendencia y se estabiliza en torno a una media constante. Esto indica que la primera diferenciación logra transformar la serie original en una forma más estacionaria, adecuada para el modelado ARIMA.
En la gráfica de la primera diferencia de la producción de lulo se aprecia que las fluctuaciones en los cambios anuales son más regulares y de menor magnitud relativa. La serie oscila de manera alternada entre incrementos y disminuciones, manteniendo una variabilidad estable a lo largo del tiempo. Esto evidencia que la diferenciación también ha eliminado la tendencia presente en la serie original, logrando una serie más estacionaria, con variaciones en torno a cero y sin patrones persistentes de crecimiento o decrecimiento.
## Series: ts_banano
## ARIMA(0,0,0) with non-zero mean
##
## Coefficients:
## mean
## 13631.168
## s.e. 3775.475
##
## sigma^2 = 257465607: log likelihood = -188.22
## AIC=380.44 AICc=381.3 BIC=382.11
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 2.073872e-07 15566.65 11041.32 -1634.601 1662.072 0.6804436
## ACF1
## Training set -0.1355665
## Series: ts_lulo
## ARIMA(0,0,0) with non-zero mean
##
## Coefficients:
## mean
## 2305.0206
## s.e. 700.6186
##
## sigma^2 = 8866218: log likelihood = -159.59
## AIC=323.18 AICc=324.03 BIC=324.84
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 3.343731e-13 2888.715 1819.8 -233.5501 256.7925 0.5832481
## ACF1
## Training set -0.1415378
## Rows: 1,230
## Columns: 8
## $ ano <chr> "2020", "2020", "2020", "2020", "2020", "2020", "…
## $ mes <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1…
## $ tipo_intermediario <chr> "BANCOS", "BANCOS", "BANCOS", "BANCOS", "BANCOS",…
## $ nombre_intermediario <chr> "BANCAMIA S.A.", "BANCO AGRARIO", "BANCO AV VILLA…
## $ number_desembolsos <dbl> 3440, 5336, 55, 558, 152, 9011, 11251, 1290, 26, …
## $ number_clientes <dbl> 3440, 5321, 54, 552, 148, 8735, 10725, 1290, 26, …
## $ total_desembolso <dbl> 10680960392, 41270421228, 6365749405, 23369647122…
## $ fecha_de_informacion <chr> "25/01/2021", "25/01/2021", "25/01/2021", "25/01/…
## vars n mean sd median trimmed mad min
## X1 1 1230 76545313460 122177920682 18301530856 47353210817 23556722961 4e+07
## max range skew kurtosis se
## X1 867372092815 867332092815 2.42 6.22 3483695391
## vars n mean sd median trimmed mad min max range skew
## X1 1 1230 2367.56 3327.04 556.5 1665.68 817.65 1 21443 21442 1.7
## kurtosis se
## X1 2.45 94.87
Los datos analizados corresponden a un conjunto de 1230 observaciones. En el primer caso, las medidas descriptivas muestran valores extremadamente grandes: la media supera los 7.6 millones, la desviación estándar sobrepasa los 12 millones y la mediana se ubica alrededor de 1.83 millones. Esta enorme separación entre la media y la mediana evidencia una fuerte asimetría positiva, es decir, existen valores muy altos que están empujando el promedio hacia arriba. Lo mismo se confirma con el valor trimmed, que al promediar eliminando los valores más extremos desciende de manera notable, señal de la influencia de outliers. En conjunto, estas cifras indican una distribución altamente dispersa, con amplitudes extremas y presencia evidente de datos atípicos que dominan el comportamiento general de la variable.
En resumen, aunque ambos conjuntos presentan asimetría y valores atípicos, el primero muestra una distribución extraordinariamente sesgada y dispersa, mientras que el segundo conserva un comportamiento más estable y con variabilidad moderada en comparación. Ambos resultados resaltan la importancia de complementar estas estadísticas con gráficos y posibles transformaciones para comprender de manera más precisa la estructura de los datos.
El gráfico presenta la evolución del total de desembolsos por año entre
2020 y 2025. En términos generales, se observa que los montos
desembolsados se mantienen en niveles muy altos a lo largo del periodo,
aunque con fluctuaciones importantes entre un año y otro. Durante 2020 y
2021 se registran los valores más elevados, prácticamente iguales entre
sí, lo que sugiere un ritmo fuerte y sostenido de desembolso al inicio
del periodo. Sin embargo, en 2022 se aprecia una caída notable, que se
acentúa levemente en 2023, convirtiéndose estos dos años en el punto más
bajo de toda la serie. A partir de este descenso, el comportamiento
vuelve a repuntar en 2024, alcanzando nuevamente cifras altas, aunque
sin llegar al nivel de los primeros años. Finalmente, en 2025 se
mantiene un valor elevado, con una ligera disminución frente a 2024 pero
todavía muy superior al registrado en 2022 y 2023.
El gráfico muestra la evolución del total de clientes atendidos por año
entre 2020 y 2025. Durante 2020 y 2021, el número de clientes alcanza
sus niveles más altos, superando los seiscientos mil, lo que indica un
periodo de fuerte demanda o de alta capacidad de captación. Sin embargo,
en 2022 se observa una caída abrupta, convirtiéndose en el punto más
bajo de toda la serie. En 2023 hay una ligera recuperación, aunque
todavía muy lejos de los valores iniciales. Posteriormente, en 2024, el
número de clientes vuelve a acercarse a las cifras de los primeros años,
mostrando una recuperación notable. Finalmente, en 2025, aunque el total
de clientes disminuye respecto a 2024, se mantiene en un nivel
intermedio, superior al de 2022 y 2023 pero sin alcanzar los máximos
iniciales.
## `geom_smooth()` using formula = 'y ~ x'
El gráfico evidencia la distribución y tendencia de los desembolsos
individuales por año entre 2020 y 2025. Cada punto representa un
desembolso específico, lo que permite observar no solo los valores
promedios, sino también la dispersión y presencia de valores extremos
dentro de cada periodo. En general, todos los años muestran una amplia
variabilidad, con numerosos desembolsos ubicados en rangos bajos y
medios, y un conjunto más reducido de valores excepcionalmente altos que
sobresalen del resto.
Durante 2020 y 2021 se aprecian algunos de los desembolsos más elevados de toda la serie, lo que coincide con los años de mayor actividad agregada. A partir de 2022, aunque continúan apareciendo desembolsos altos, su frecuencia disminuye y la concentración de puntos en niveles más bajos es mayor, reflejando una distribución más contenida. En 2024 y 2025 vuelve a observarse un incremento moderado de valores altos, lo que sugiere una recuperación en la magnitud de ciertos desembolsos en comparación con los años centrales.
## `geom_smooth()` using formula = 'y ~ x'
El gráfico muestra la evolución del número de clientes entre 2020 y
2025. Cada punto representa un valor registrado en un momento específico
dentro de cada año, lo que permite observar la dispersión y variabilidad
de los datos. En general, se aprecia que el volumen de clientes presenta
fluctuaciones importantes año tras año, sin una tendencia lineal
completamente definida, pero sí con ciertos patrones visibles.
El gráfico presenta la distribución del desempleo entre los años 2020 y
2025 mediante diagramas de caja, lo que permite identificar cómo se
comportan los valores centrales, la dispersión y la presencia de valores
atípicos en cada periodo.
En términos generales, se observa que todos los años muestran una alta variabilidad en los datos de desempleo, lo cual se refleja en rangos amplios y en una gran cantidad de puntos fuera del bigote superior, indicando valores atípicos extremadamente elevados. Esto sugiere que, aunque la mayoría de los registros se concentra en niveles relativamente bajos, existen casos puntuales donde el desempleo alcanza cifras muy superiores al promedio, posiblemente debido a situaciones excepcionales o regiones con condiciones económicas particulares.
El gráfico evidencia un comportamiento dinámico: un inicio con alta
variabilidad (2020–2021), seguido de un periodo de estabilidad relativa
(2022–2023) y culminando con un nuevo repunte tanto en crecimiento como
en dispersión (2024–2025). Esto sugiere que, a pesar de fluctuaciones
intermedias, la tendencia general apunta hacia un aumento sostenido en
el número de clientes en los años más recientes.
## `summarise()` has grouped output by 'ano'. You can override using the `.groups`
## argument.
El gráfico muestra la evolución temporal del número de clientes desde
2020 hasta 2025, revelando patrones claros de crecimiento, caída y
recuperación a lo largo del periodo analizado.
En los primeros meses de 2020 se observa un crecimiento acelerado, pasando de niveles cercanos a los 35 000 clientes a valores superiores a 60 000. Este ascenso continúa con algunas fluctuaciones hasta alcanzar un pico cercano a mediados de 2021, donde se registra el nivel más alto de toda la serie. Sin embargo, después de ese máximo, comienza una tendencia descendente gradual que se acentúa hacia finales de 2021.
A inicios de 2022 se produce una caída abrupta, llevando el número de clientes a valores cercanos a los 20 000, lo cual marca el punto más bajo de la serie temporal y sugiere un evento significativo o un cambio estructural durante ese periodo. A lo largo de 2022 el número de clientes permanece relativamente bajo, con oscilaciones moderadas y sin señales de crecimiento sostenido.
El gráfico muestra la evolución temporal del total de desembolso desde
2020 hasta 2025, evidenciando un comportamiento dinámico marcado por
picos significativos, caídas abruptas y una recuperación sostenida en
los últimos años.
En los primeros meses de 2020 se observa un nivel inicial cercano a 1.0×10¹², seguido rápidamente por un ascenso pronunciado que culmina en un pico por encima de 2.0×10¹², uno de los valores más altos de toda la serie. Este incremento temprano sugiere un periodo de fuerte actividad financiera o de inversión. Sin embargo, tras alcanzar ese máximo, el desembolso experimenta una caída considerable, estabilizándose posteriormente en un rango alto, aunque con oscilaciones frecuentes.
Durante 2021 el comportamiento se mantiene volátil: hay repuntes que superan de nuevo los 1.6×10¹², pero también descensos marcados. Esta variabilidad puede indicar fluctuaciones en las necesidades de financiamiento, cambios en condiciones macroeconómicas o ajustes operativos.
En 2025 se consolida la fase de recuperación, con desembolsos que muestran una tendencia claramente ascendente y niveles que se acercan nuevamente al rango alto visto en el periodo previo a la caída de 2022. Aunque persisten las fluctuaciones, la dirección general indica un crecimiento estable y sostenido.
##
## Augmented Dickey-Fuller Test
##
## data: ts_clientes
## Dickey-Fuller = -1.3239, Lag order = 4, p-value = 0.8502
## alternative hypothesis: stationary
##
## #######################
## # KPSS Unit Root Test #
## #######################
##
## Test is of type: mu with 3 lags.
##
## Value of test-statistic is: 0.3128
##
## Critical value for a significance level of:
## 10pct 5pct 2.5pct 1pct
## critical values 0.347 0.463 0.574 0.739
Los resultados de las pruebas ADF y KPSS aplicadas a la serie temporal de clientes permiten concluir, de manera conjunta, que la serie no es estacionaria. La prueba ADF, cuya hipótesis nula establece que existe una raíz unitaria, arrojó un valor p muy elevado (0.8502), lo que impide rechazar dicha hipótesis. Esto indica que, según este test, la serie no es estacionaria. Por otro lado, la prueba KPSS parte de la hipótesis nula opuesta: que la serie sí es estacionaria. En este caso, el estadístico obtenido (0.3128) se encuentra por debajo de todos los valores críticos de referencia, lo que implica que no se rechaza la estacionariedad bajo este criterio. Aunque ambos resultados parecen contradictorios, es común que estas pruebas ofrezcan conclusiones distintas y, por lo general, se recomienda interpretar sus resultados de manera complementaria. Bajo este enfoque, cuando el ADF señala no estacionariedad y el KPSS indica estacionariedad, se adopta la conclusión más conservadora, que es considerar que la serie no es estacionaria. Esto también coincide con la evaluación visual de la serie, que muestra tendencias marcadas y cambios estructurales evidentes. En consecuencia, antes de aplicar modelos como ARIMA u otros que requieren estacionariedad, será necesario transformar la serie, ya sea mediante diferenciación u otras técnicas que estabilicen su comportamiento.
##
## Augmented Dickey-Fuller Test
##
## data: ts_desembolso
## Dickey-Fuller = -1.702, Lag order = 4, p-value = 0.6964
## alternative hypothesis: stationary
##
## #######################
## # KPSS Unit Root Test #
## #######################
##
## Test is of type: mu with 3 lags.
##
## Value of test-statistic is: 0.3046
##
## Critical value for a significance level of:
## 10pct 5pct 2.5pct 1pct
## critical values 0.347 0.463 0.574 0.739
Los resultados de las pruebas ADF y KPSS aplicadas a la serie temporal de desembolso muestran, en conjunto, que la serie no es estacionaria. La prueba Dickey-Fuller, cuya hipótesis nula plantea que la serie posee una raíz unitaria, arrojó un estadístico de –1.702 con un valor p de 0.6964. Este valor p, al ser muy superior a los niveles comunes de significancia, impide rechazar la hipótesis nula, lo cual indica que la serie no es estacionaria bajo este test. Por otro lado, la prueba KPSS parte de la hipótesis nula contraria, es decir, que la serie sí es estacionaria. En este caso, el estadístico obtenido (0.3046) es menor que todos los valores críticos presentados, por lo que tampoco se rechaza la hipótesis nula de estacionariedad según este criterio. Aunque los resultados parezcan contradictorios, es habitual que ambas pruebas conduzcan a conclusiones opuestas. Para una interpretación consistente, se recomienda considerar ambos resultados de manera complementaria. En ese sentido, cuando la prueba ADF indica no estacionariedad y la KPSS sugiere estacionariedad, suele adoptarse la postura conservadora de clasificar la serie como no estacionaria, especialmente cuando existen evidencias visuales de tendencias o cambios estructurales. Por lo tanto, antes de aplicar modelos que requieren estacionariedad, será necesario transformar la serie, siendo la diferenciación una de las opciones más comunes para estabilizar su comportamiento.
El gráfico de la primera diferencia de la serie de clientes muestra cómo
varían los valores de un periodo a otro, permitiendo observar con mayor
claridad los cambios abruptos y eliminando la tendencia original de la
serie. Al analizar esta transformación, se aprecia un comportamiento
mucho más fluctuante y centrado alrededor de cero, lo cual es
característico de una serie que ha sido diferenciada correctamente para
acercarla a la estacionariedad.
En los primeros años, especialmente entre 2020 y 2021, las variaciones son amplias y volátiles, con incrementos y disminuciones que superan fácilmente los 10 000 clientes y con picos que llegan incluso a valores superiores a 20 000. Asimismo, se observan caídas muy pronunciadas, como una disminución cercana a los –30 000 clientes a inicios de 2022, lo que coincide con el cambio abrupto identificado previamente en la serie original.
A medida que avanza el tiempo, desde mediados de 2022 hasta 2025, la magnitud de las fluctuaciones se vuelve más moderada. Aunque sigue habiendo variaciones positivas y negativas importantes, estas se estabilizan en una banda más estrecha, lo cual sugiere que la estructura de cambio de la serie es más regular después del periodo de choque observado a comienzos de 2022.
En los primeros meses se observan variaciones muy pronunciadas, tanto
positivas como negativas. Destaca un incremento excepcionalmente alto
—superior al billón de unidades monetarias— seguido de caídas abruptas,
lo que evidencia la fuerte volatilidad inicial del desembolso. Este
comportamiento coincide con los picos y descensos extremos vistos en la
serie original durante 2020 y 2021, reflejando momentos de expansión y
contracción financiera muy marcados.
A partir de 2022, las variaciones comienzan a estabilizarse, aunque continúan presentando oscilaciones notorias. Se observan movimientos subidos y bajadas de magnitudes moderadas, pero dentro de un rango más acotado en comparación con los primeros años. Esta estabilización sugiere que, tras los fuertes cambios observados al inicio del periodo, el desembolso empezó a comportarse de manera más regular, con fluctuaciones más consistentes mes a mes.
Hacia 2024 y 2025, la serie mantiene un patrón de variabilidad intermedia: ya no registra las oscilaciones extremas del primer tramo, pero sigue mostrando picos y valles que reflejan ajustes financieros periódicos. En conjunto, la gráfica evidencia que la primera diferencia cumplió su función al eliminar la tendencia global de la serie, revelando una dinámica centrada alrededor de cero y mucho más apta para el análisis mediante modelos como ARIMA. Esto confirma que la diferenciación es un paso adecuado para aproximar la serie del desembolso hacia la estacionariedad requerida para el modelado de series temporales.
En la gráfica de autocorrelación (FAC) se observa un patrón de
desvanecimiento gradual, donde los valores comienzan muy altos en los
primeros rezagos y luego disminuyen lentamente conforme aumenta el lag.
Este tipo de comportamiento es característico de un proceso AR
(autoregresivo), ya que en modelos autoregresivos la FAC decae de manera
progresiva. Además, se aprecia que varios rezagos permanecen
significativamente por encima del límite de confianza, lo que indica una
dependencia importante entre los valores pasados de la serie.
Por otro lado, la gráfica de autocorrelación parcial (FACP) muestra un pico fuerte y claramente significativo en el primer rezago, seguido de barras pequeñas o no significativas en los rezagos posteriores. Este patrón es típico de un proceso AR(1), donde la PACF presenta un corte abrupto después del primer lag, mientras que los demás rezagos tienden a situarse dentro de los intervalos de confianza.
La forma de ambas gráficas sugiere que la serie diferenciada podría representarse adecuadamente mediante un modelo ARIMA(1,1,0), donde la parte autoregresiva de orden 1 captura la dependencia marcada en el primer rezago y la primera diferenciación ya se aplicó para lograr estacionariedad. Este tipo de modelo es coherente con la estructura observada: una PACF con un primer pico dominante y una FAC con desvanecimiento lento.
Las gráficas de la FAC (ACF) y la FACP (PACF) para la serie diferenciada
del desembolso permiten analizar la estructura de dependencia temporal y
orientar la identificación de un modelo ARIMA apropiado.
En la gráfica de la FAC se observa un comportamiento claro de disminución gradual: el primer rezago presenta una autocorrelación muy alta y significativa, mientras que los rezagos posteriores van decayendo poco a poco, aunque varios de ellos permanecen aún por encima de los límites de confianza. Este patrón es típico de un proceso autoregresivo (AR), en el cual la influencia de los valores pasados se va diluyendo lentamente con el tiempo.
Por su parte, la gráfica de la FACP muestra un primer rezago significativamente elevado, seguido de barras más pequeñas en los rezagos posteriores, muchas de ellas dentro de los límites de confianza. Este “corte” abrupto después del primer lag es característico de un proceso AR(1), donde la dependencia principal recae en el valor inmediatamente anterior, y la contribución de rezagos más alejados es mucho menos relevante.
## Series: ts_clientes
## ARIMA(0,1,1)
##
## Coefficients:
## ma1
## -0.2445
## s.e. 0.1169
##
## sigma^2 = 51224752: log likelihood = -709.87
## AIC=1423.74 AICc=1423.92 BIC=1428.21
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 335.4008 7054.161 4999.79 -1.299306 12.49512 0.3220437
## ACF1
## Training set -0.004082371
El modelo ajustado corresponde a un ARIMA(0,1,1) aplicado a la serie ts_clientes, y los resultados muestran cómo se comporta la serie al ser modelada mediante un componente MA de primer orden después de una diferenciación. El coeficiente estimado para el término MA(1) es –0.2445, con un error estándar de 0.1169, lo que indica que el parámetro es moderadamente significativo y sugiere que los choques o errores del periodo anterior tienen un efecto negativo, aunque no muy fuerte, sobre el valor actual de la serie diferenciada. Esto implica que parte de las variaciones en el número de clientes pueden explicarse por fluctuaciones aleatorias recientes.
En cuanto al ajuste del modelo, los criterios de información presentan valores de AIC = 1423.74, AICc = 1423.92 y BIC = 1428.21, los cuales sirven como referencia para comparar este modelo con otras posibles configuraciones ARIMA. La verosimilitud logarítmica (log likelihood = –709.87) complementa esta evaluación, indicando la calidad general del ajuste frente a los datos observados. Si bien estos valores no permiten juzgar el modelo de forma aislada, sí constituyen una base para compararlo con alternativas más complejas o más parsimoniosas.
Los indicadores de error sobre el conjunto de entrenamiento aportan una visión de la precisión del modelo. El RMSE (7054.16) y el MAE (4999.79) reflejan el tamaño promedio de los errores en magnitudes absolutas, mientras que el MAPE (12.49%) indica que, en promedio, el modelo se desvía alrededor de un 12 % con respecto a los valores reales, lo cual se considera un nivel de error moderado. El ME cercano a cero sugiere que no existe un sesgo sistemático importante en las predicciones. Por último, el valor ACF1 = –0.004 indica que no hay autocorrelación remanente de primer orden en los residuos, lo cual es un buen indicio de que el modelo ha capturado adecuadamente la estructura dependiente de la serie.
## Series: ts_desembolso
## ARIMA(1,1,1)(1,0,0)[12]
##
## Coefficients:
## ar1 ma1 sar1
## 0.4893 -0.8804 0.581
## s.e. 0.1852 0.1041 0.131
##
## sigma^2 = 4.279e+22: log likelihood = -1896.84
## AIC=3801.69 AICc=3802.31 BIC=3810.62
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 22694768418 200855662780 130034091732 0.4208657 9.240009 0.5359159
## ACF1
## Training set 0.0463285
Estos resultados muestran que el modelo ARIMA estacional logra representar adecuadamente la estructura del desembolso, capturando tanto la dependencia inmediata como la estacionalidad anual. Si bien persiste un nivel de error elevado debido a la escala de la serie, los indicadores relativos y la ausencia de autocorrelación residual señalan que este modelo es coherente y suficientemente robusto para describir la dinámica del desembolso y realizar pronósticos razonables.
El modelo ARIMA proyecta un escenario de crecimiento moderado y estable
en el número de clientes durante los próximos periodos. La línea de
pronóstico avanza de forma suave, manteniendo una tendencia ligeramente
ascendente desde el nivel actual cercano a los 50 000 clientes.
Los intervalos de confianza —representados por las bandas en tonos azules— se ensanchan conforme avanza el horizonte temporal, lo cual es esperado en este tipo de modelos, ya que la incertidumbre aumenta cuanto más lejos se proyecta el futuro. Aun así, la banda principal se mantiene relativamente contenida, lo que indica que el ARIMA considera que la variabilidad reciente de la serie se mantendrá en niveles similares.
En términos generales, ARIMA anticipa un crecimiento continuo pero prudente, sin fluctuaciones abruptas y sin desviarse radicalmente del patrón reciente observado.
El pronóstico basado en la descomposición STL ofrece una visión más dinámica y flexible del futuro de la serie. A diferencia del ARIMA, este método preserva explícitamente la estacionalidad y el comportamiento cíclico que pueda contener la serie, lo cual se refleja en los pronósticos más “ondulados”.
Las bandas de confianza en el modelo STL son más amplias, especialmente en el rango superior, lo que sugiere una incertidumbre mayor respecto al escenario de crecimiento. Asimismo, el pronóstico muestra movimientos más marcados: picos y valles que reflejan las fluctuaciones históricas de la serie, ofreciendo un panorama donde las variaciones estacionales o irregulares se mantienen.
El STL, por tanto, plantea un posible futuro donde el número de clientes crece, pero con mayor volatilidad y amplitud de oscilaciones que las previstas por el ARIMA.
El gráfico del pronóstico ARIMA para el desembolso muestra la proyección
futura del comportamiento financiero de la serie, manteniendo coherencia
con la tendencia observada en los últimos años. La línea negra
representa los datos históricos, mientras que la línea azul indica el
pronóstico central acompañado de bandas de confianza en distintos tonos
de azul, que reflejan la incertidumbre del modelo.
El modelo ARIMA proyecta que el desembolso continuará en una trayectoria ligeramente ascendente, siguiendo el patrón de recuperación observado desde mediados de 2023. Esta tendencia al alza sugiere que las dinámicas recientes —caracterizadas por un crecimiento gradual tras el periodo de inestabilidad entre 2021 y 2022— podrían mantenerse, llevando el desembolso hacia niveles superiores a los actuales.
Las bandas de confianza muestran un ensanchamiento progresivo a medida que avanza el horizonte de pronóstico, lo cual es normal en modelos de series temporales, ya que la incertidumbre aumenta cuanto más lejos se intenta predecir. Aun así, la mayor parte del rango de predicción se mantiene por encima de los valores observados en años recientes, lo que refuerza la lectura de que el modelo anticipa un escenario de crecimiento moderado pero sostenido.
## Series: ts_clientes
## ARIMA(1,1,1)(1,0,1)[12]
##
## Coefficients:
## ar1 ma1 sar1 sma1
## 0.0821 -0.3003 -0.7712 0.9581
## s.e. 0.5931 0.5636 0.7399 1.6595
##
## sigma^2 = 49476764: log likelihood = -709.16
## AIC=1428.32 AICc=1429.28 BIC=1439.49
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 258.6613 6778.105 4858.418 -1.204294 12.06223 0.3129377
## ACF1
## Training set -0.003561689
El modelo ajustado corresponde a un SARIMA(1,1,1)(1,0,1)[12], lo que
indica que la serie de clientes presenta no solo una dinámica no
estacional capturada por parámetros AR, MA y una diferenciación, sino
también un componente estacional anual, reflejado en los términos SAR(1)
y SMA(1) con periodo 12. Los coeficientes estimados muestran que el
proceso autoregresivo no estacional (ar1 = 0.0821) tiene poca influencia
directa en la evolución de la serie, mientras que el componente de
promedio móvil (ma1 = –0.3003) sugiere que los errores recientes tienen
un efecto moderado de corrección sobre el valor actual. Por otro lado,
los coeficientes estacionales (sar1 = –0.7712 y sma1 = 0.9581)
evidencian una influencia notable del comportamiento registrado un año
atrás, mostrando que la estacionalidad tiene un papel importante en la
estructura de los datos.
Los valores de AIC, AICc y BIC (1428.32, 1429.28 y 1439.49, respectivamente) indican que el modelo tiene un ajuste razonable, comparable a variantes no estacionales, pero incorpora adecuadamente la componente periódica. El conjunto de medidas de error —un RMSE cercano a 6778 y un MAE alrededor de 4858— sugiere un nivel de precisión aceptable para los tamaños y fluctuaciones propias de la serie. El MAPE de aproximadamente 12% confirma que el modelo mantiene un nivel de error relativo moderado. Finalmente, el valor de autocorrelación de primer orden en los residuos (ACF1 ≈ –0.003) indica que el modelo ha capturado bien la dependencia temporal, al no dejar autocorrelación remanente significativa.
El pronóstico generado por este SARIMA muestra una proyección futura que incorpora fluctuaciones más marcadas que las observadas en modelos no estacionales como ARIMA. La banda de confianza se abre significativamente conforme avanza el horizonte temporal, lo que refleja la incertidumbre creciente, especialmente debido al componente estacional. El pronóstico central muestra un comportamiento ligeramente descendente y con ondulaciones suaves, reproducidas por la estacionalidad incluida en el modelo. Esto sugiere que, aunque no se proyecta un crecimiento sostenido en el corto plazo, sí se esperan oscilaciones periódicas que responden a patrones anuales previamente observados en la serie.
## Series: ts_desembolso
## ARIMA(1,1,1)(1,1,1)[12]
##
## Coefficients:
## ar1 ma1 sar1 sma1
## 0.5417 -0.8630 0.2869 -0.6088
## s.e. 0.1706 0.1025 0.7561 0.6799
##
## sigma^2 = 4.706e+22: log likelihood = -1567.94
## AIC=3145.87 AICc=3147.05 BIC=3156.09
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 4787232000 188770264183 108255227925 0.1739854 8.030532 0.4461576
## ACF1
## Training set 0.09059803
El modelo ajustado para la serie de desembolso corresponde a un
SARIMA(1,1,1)(1,1,1)[12], lo cual indica que la dinámica del desembolso
presenta tanto un componente no estacional como uno estacional de
frecuencia anual. El término autoregresivo de primer orden (ar1 =
0.5417) sugiere que el valor actual del desembolso depende de forma
moderada y directa del periodo inmediato anterior. El componente de
promedio móvil (ma1 = –0.8630) evidencia un fuerte efecto correctivo de
los choques recientes sobre el valor presente, compensando variaciones
abruptas. En cuanto a la parte estacional, el coeficiente sar1 = 0.2869
señala que existe una influencia positiva del patrón observado doce
meses antes, mientras que el término sma1 = –0.6088 muestra que la
estacionalidad también incorpora un ajuste por errores pasados de esa
misma periodicidad.
Los criterios de información (AIC = 3145.87, AICc = 3147.05, BIC = 3156.09) indican un buen ajuste dentro de los modelos estacionales evaluados. Los errores del conjunto de entrenamiento —especialmente el MAPE = 8.03%, que es relativamente bajo para una serie de valores tan elevados— confirman que el modelo reproduce de manera adecuada la variabilidad del desembolso. Además, el coeficiente de autocorrelación de primer orden de los residuos (ACF1 ≈ 0.09) se mantiene bajo, lo que señala que el modelo ha capturado de forma satisfactoria la estructura de dependencia temporal.
Sociedad de Agricultores de Colombia. (2021, septiembre 25). Así es la hortofruticultura nacional [Artículo]. Revista Nacional de Agricultura, 1018. https://sac.org.co/asi-es-la-hortofruticultura-nacional/
Gobierno de Colombia. (s. f.). Reporte de movilización mensual — Intermediario Financiero. Datos Abiertos Colombia. Recuperado de https://www.datos.gov.co/Hacienda-y-Cr-dito-P-blico/Reporte-de-movilizaci-n-mensual-Intermediario-Fina/xbk8-edux/data_preview