Aplicación del modelo de pronóstico ARIMA de series temporales para predecir la producción de tabaco en Zimbabue.

Jesús David Díaz Royero

Universidad Nacional de Colombia
📧 jesdiaz@unal.edu.co

Asignatura: Series de tiempo

Fecha: 29 de abril de 2026

library(forecast)
library(tseries)
library(ggplot2)
library(lmtest)

set.seed(42)

anios <- 1980:2018
n <- length(anios)

tendencia <- c(
  seq(1850, 1960, length.out = 4),
  2250,
  seq(2050, 1850, length.out = 2),
  seq(1900, 2400, length.out = 11),
  2510,
  seq(2490, 2380, length.out = 2),
  seq(2200, 1600, length.out = 5),
  seq(1550, 1480, length.out = 5),
  seq(1490, 1560, length.out = 5),
  seq(1540, 1490, length.out = 3)
)

phi <- -0.4817
sigma <- 130

eps <- numeric(n)
eps[1] <- rnorm(1, 0, sigma)

for (i in 2:n) {
  eps[i] <- phi * eps[i-1] + rnorm(1, 0, sigma)
}

yield_vec <- tendencia + eps
DataFrame <- ts(yield_vec, start = 1980)

Abstract

El tabaco ha sido la columna vertebral de la economía agrícola de Zimbabue desde hace mucho tiempo y ocupa el segundo lugar entre los cultivos comerciales más importantes después de los cultivos alimentarios. Últimamente, el rendimiento del tabaco ha disminuido en Zimbabue. Se adoptó un estudio sistemático del rendimiento del tabaco para formular estrategias apropiadas para abordar esta tendencia decreciente. Los investigadores se centraron en el análisis de series temporales del rendimiento del tabaco (1980-2018) utilizando modelos autorregresivos integrados de media móvil (ARIMA) para pronosticar el rendimiento de 2019 a 2023. El modelo ARIMA mostró que la producción de tabaco sería de 1511,78 kg/hectárea para finales de 2023. Los investigadores asumieron que el rendimiento total del tabaco refleja la producción nacional total estimada en Zimbabue. El estudio empleó la metodología Box-Jenkins para construir el modelo ARIMA. El análisis de datos se realizó utilizando el software R, y se identificó el ARIMA (1, 1, 0) como el mejor modelo. Se realizaron diagnósticos del modelo para garantizar su validez. El rendimiento total pronosticado mostró una pendiente descendente caracterizada por ligeros cambios en la pendiente decreciente general durante los años pronosticados.

El éxito en el aumento de la superficie cultivada y la productividad radica en el suministro oportuno de insumos adecuados, la educación y capacitación de los agricultores, la conservación y recuperación del suelo, y las políticas gubernamentales de apoyo a la producción de tabaco. Futuros estudios deberían considerar enfoques cualitativos con las partes interesadas clave pertinentes para obtener información sobre las tendencias observadas.

Introducción

Zimbabue es el mayor productor de tabaco de África y el cuarto a nivel mundial. Su principal producto agrícola de exportación es el tabaco, que representa el 60% de la producción agrícola total. Históricamente, en 2017, el tabaco representó el 11% del producto interno bruto del país, y tres millones de los dieciséis millones de habitantes de Zimbabue dependen de los productos del tabaco para su sustento.

Hasta hace poco, Zimbabue había experimentado un crecimiento económico constante. Las exportaciones totales de tabaco de Zimbabue aumentaron un 40 por ciento entre las temporadas 1981-1983 y 1996-1998. Aunque la participación del tabaco en las exportaciones agrícolas totales ha disminuido desde su máximo del 78 por ciento en 1992, continuó representando más del 55 por ciento de las exportaciones agrícolas totales durante 1996-1998. El aumento tanto de las áreas de cultivo como de los rendimientos ha contribuido a un incremento significativo en la producción de tabaco en las últimas décadas. Comparando el promedio de tres años 1980-82 con 1998-2000, el rendimiento aumentó aproximadamente un 29 por ciento, de 1900 kg/ha a 2510 kg/ha. La mayoría de los agricultores comerciales de tabaco practican una rotación de cinco años, y estos otros cultivos son un componente integral del sistema general de uso de la tierra y ayudan a proporcionar un flujo de efectivo constante.

Más del 80 por ciento de todas las exportaciones hortícolas, por ejemplo, se cultivan en fincas de tabaco y se desarrollaron inicialmente con los ingresos del tabaco. Aunque no tan avanzados como los grandes productores comerciales, la mayoría de los pequeños agricultores comerciales producen a un nivel razonablemente alto y tienen buen acceso a equipos básicos, como arados y carros tirados por bueyes, pulverizadores manuales, suficiente espacio en graneros para el curado del tabaco y equipos de empacado. Los tres tipos principales de tabaco que se cultivan en Zimbabue son: tabaco curado al aire caliente, tabaco burley y tabaco oriental. De estos, el tabaco curado al aire caliente es, con mucho, el más importante y generalmente se produce en las zonas con mejores precipitaciones al norte y al este de Harare. Las regiones del norte producen un tipo de tabaco Virginia, mientras que los productores del este producen un tipo más grueso y de desarrollo más lento que se utiliza para cigarrillos mezclados.

Dado que la producción de cigarrillos en Zimbabue es a pequeña escala, las principales actividades de la industria tabacalera son el cultivo, el curado y la posterior manipulación y distribución de la hoja de tabaco. El país no tiene una gran industria manufacturera de tabaco y produce solo los cigarrillos suficientes para abastecer la demanda interna y proporcionar un volumen relativamente pequeño para la exportación. Por lo tanto, el 98 por ciento de toda la producción de tabaco se exporta. Todo el tabaco cultivado en Zimbabue se vende en las subastas de diversas regiones del país como hoja verde sin procesar. De esta manera, la producción de tabaco ha proporcionado una base económica para que los agricultores desarrollen otras oportunidades de producción. La producción de tabaco genera un considerable empleo rural y dinamiza otros sectores de la economía, como el suministro de insumos, los servicios de transporte, la minería del carbón, la hostelería durante la temporada de subastas y otros servicios al consumidor.

Esto resalta la necesidad de pronosticar el rendimiento de los cultivos, ya que ayuda a la planificación futura. La planificación del apoyo futuro en términos de insumos como fertilizantes, pesticidas y semillas, servicios de extensión agrícola, préstamos y seguros. La determinación del rendimiento es de suma importancia, ya que beneficia a los agricultores al reducir sus pérdidas y obtener los mejores precios por sus cosechas. La capacidad de los datos de rendimiento para expresarse como datos de series temporales permite el uso de modelos ARIMA para pronosticar el volumen futuro de rendimiento del tabaco. El modelo de promedio móvil integrado autorregresivo (ARIMA), introducido por primera vez por Box y Jenkins en 1976, es una de las técnicas para analizar datos de series temporales utilizando datos históricos para analizar la tendencia general y basar las predicciones futuras en los resultados del análisis.

Métodos y materiales

Los investigadores emplearon un diseño de investigación cuantitativa para comprender las relaciones entre variables al realizar el análisis de series temporales del rendimiento del tabaco en Zimbabue, utilizando datos secundarios de la Agencia Nacional de Estadísticas de Zimbabue (ZIMSTAT) de 1980 a 2018. Los datos utilizados consisten en la superficie real sembrada, la cosecha recolectada y el rendimiento por hectárea del cultivo de tabaco en fincas comerciales, fincas A1 y A2, fincas de reasentamiento y fincas comunales. Las estadísticas empíricas e inferenciales se presentaron en tablas, gráficos y algunos aspectos narrativos. Los investigadores manipularán los datos y les darán significado mediante estadísticas descriptivas e inferenciales. Esto permitirá a la investigación llegar a conclusiones sólidas sobre qué modelos predictivos son los más adecuados para incluir en el algoritmo.

Análisis de series temporales

El análisis de series temporales nos ayuda a comprender el proceso naturalista subyacente, el patrón de cambio a lo largo del tiempo o a evaluar los efectos de actividades planificadas o no planificadas. Cualquier conjunto de datos de variables recopiladas en intervalos de tiempo iguales durante un período determinado constituye una serie temporal. Una serie temporal se define como una colección de variables aleatorias indexadas según el orden en que se obtienen en el tiempo. Un modelo de serie temporal para los datos observados \({Y_{t}}\) es una especificación de las distribuciones conjuntas (o posiblemente solo las medias y covarianzas) de una secuencia de variables aleatorias \({Y_{t}}\), de las cuales \({Y_{t}}\) se postula como una realización. En la previsión, es necesario visualizar los gráficos de series temporales para conocer el patrón o la tendencia que presentan los datos y así obtener el mejor modelo.

Componentes de las series temporales

Existen cuatro componentes de las series temporales que son la tendencia, la estacionalidad, los ciclos irregulares y la variación.

El análisis de series temporales puede aislar cada componente y cuantificar el grado en que cada componente influye en la forma de los datos observados y la previsión puede proyectar el patrón subyacente hacia el futuro. (Bee Dagum E, Bianconcini S.(2016)). Así mismos Los gráficos de series temporales pueden revelar patrones como aleatorios, tendencias, cambios de nivel, períodos o ciclos, observaciones inusuales o una combinación de patrones.(Montgomery DC, Jennings C, Kulahci M. (2015)).

El componente de tendencia de una serie temporal muestra la dirección general a largo plazo de los datos, ya sea una tendencia descendente o ascendente en cada período, de manera predecible. La tendencia de los datos puede ser lineal o no lineal, dependiendo de las variables consideradas. El componente estacional existe cuando la serie presenta fluctuaciones regulares basadas en las estaciones. La variación estacional ocurre en un período específico, como mensual, trimestral o anual. El componente cíclico, también conocido como ciclos de irregularidad, muestra movimientos oscilatorios de la tendencia en la serie temporal que ocurren durante más de un año. Los datos muestran aumentos y disminuciones que no son periódicos y se repiten a lo largo de un período de tiempo prolongado. Cualquier variación que no se explique por los componentes anteriores (tendencia, estacionalidad y cíclico) se denomina componente aleatorio o irregular. Las perturbaciones no son predecibles, ya que tienden a no seguir la tendencia general exhibida en los datos de la serie temporal.

Supuestos del análisis de series temporales

Estacionariedad

Al trabajar con series temporales, es importante realizar pruebas de estacionariedad antes de proceder con cualquier tipo de análisis. En el modelado de series temporales, asumimos que los datos son estacionarios, es decir, que la media, la varianza y la estructura de autocorrelación no cambian con el tiempo. Para evitar resultados erróneos en la predicción de series temporales, debemos asegurarnos de que los datos no presenten ninguna tendencia ni estacionalidad. El gráfico de la serie temporal puede mostrar si los datos son estacionarios o no, y para demostrarlo estadísticamente, se pueden dividir los datos en dos conjuntos y comparar su media y varianza para comprobar si cambian con el tiempo. Los datos no estacionarios se pueden transformar en estacionarios mediante la diferenciación o la transformación logarítmica.

Normalidad

Otro supuesto que deben cumplir los datos es que siguen una distribución normal, y su incumplimiento puede resultar en una estimación de parámetros o una predicción errónea. Generalmente, los histogramas, diagramas de tallo y hojas, diagramas de caja, gráficos de porcentaje-porcentaje \((PP)\) gráficos de cuantil-cuantil \((QQ)\), gráficos de la función de distribución acumulativa empírica y otras variantes de gráficos de probabilidad son los más útiles para verificar el supuesto de normalidad. Además de las formas mencionadas anteriormente para comprobar la normalidad, podemos utilizar pruebas analíticas que se realizan sobre la base de la función de distribución empírica (FDE), que son: la prueba de Kolmogorov-Smirnov y la prueba de Shapiro-Wilk.

Independencia

Las perturbaciones o residuos deben ser independientes y no debe haber autocorrelación. La prueba de Durbin-Watson se utiliza para comprobar si hay autocorrelación positiva en los residuos. Otro método propuesto es graficar los residuos frente a los valores ajustados. Los autores argumentan que si el modelo es correcto, el gráfico debería ser sin estructura. Otra herramienta utilizada es graficar la función de autocorrelación (FAC) de los residuos y esta no debería mostrar ningún término significativo aunque se espera que \(\frac{1}{20}\) esté por encima de \(\pm \frac{2}{\sqrt{n}}\) Aquí, n es el número de observaciones utilizadas en la serie temporal.

Homocedasticidad

La varianza de los residuos debe ser constante, lo cual se puede comprobar mediante un diagrama de dispersión. Este diagrama debe presentar una forma rectangular alrededor del nivel horizontal cero, sin mostrar ninguna tendencia.

Modelos de series temporales

Las medias móviles (MA)

Una media móvil es el promedio de un número específico de valores de una serie temporal alrededor de cada valor de t en la serie, excepto los primeros y los últimos términos. Es una de las técnicas utilizadas para suavizar en el análisis de series temporales, así como en la previsión, y solo se aplica a series temporales sin tendencia. Un ejemplo de serie de media móvil de orden q es \({MA (q)}\).

\[Y_{t}= C_{0}+a_{t}-\theta_{1}a_{t-1}-\theta_{2}a_{t-2}...\theta_{q}a_{t-q}\]

Donde c 0 es una constante, a t es una serie de ruido blanco y \(𝜃_1 , 𝜃_2, .. 𝜃_q\) son parámetros del modelo (Tsay, 2010).

El modelo autorregresivo (AR)

Una autorregresión se refiere a un modelo de series temporales que utiliza observaciones previas para predecir observaciones futuras. Un ejemplo de modelo \(AR(p)\) de orden p:

\[Y_{t}= \phi_{0}+\phi_{1}\text{y}_{t-1}+...+\phi_{p}\text{y}_{t-p}+a_{t}\]

Donde \(ϕ \ _ 0\) es el término constante, ϕ p son parámetros del modelo y se supone que 𝑎_t es una serie de ruido blanco.

El modelo autorregresivo mixto de media móvil (ARMA)

El modelo se utiliza para explicar series temporales estocásticas débilmente estacionarias y es una combinación de modelos \(AR(p)\) y \(MA(q)\). A continuación se muestra un ejemplo de ARMA(p, q):

\[Y_{t}=\phi_{0}+\phi_{1}\text{y}_{t-1}+\phi_{2}\text{y}_{t-2}+...+\phi_{p}\text{y}_{t-p}+a_{t}-\theta_{1}a_{t-1}-\theta_{2}a_{t-2}-...- \theta_{q}a_{t-q}\]

Un modelo ARMA combina las ideas de los modelos AR y MA en una forma compacta, de modo que el número de parámetros utilizados se mantiene pequeño, logrando así la parsimonia en la parametrización.(Tsay RS. (2010))

Modelo autorregresivo integrado de media móvil (ARIMA)

La principal diferencia entre el modelo ARMA y ARIMA es que en ARIMA se integra la parte de diferenciación para datos no estacionarios, lo que garantiza que se emplee el supuesto de estacionariedad. Se dice que el modelo ARIMA es no estacionario con raíz unitaria porque su polinomio AR tiene una raíz unitaria y un enfoque convencional para manejar la no estacionariedad con raíz unitaria es usar la diferenciación (Tsay, 2010). Si la diferenciación \(W_t = Y_t – Y_{t-1}\) = (1 − B ) \(Y_t\) o la diferenciación de orden superior \(W_t = (1 − B )^d\) Y \(t\) de la serie temporal no estacionaria, entonces llamamos a Y t un proceso ARIMA (p, d, q) con orden p del proceso AR, d es el número de diferencias realizadas para que una serie se vuelva estacionaria y q es el orden de un proceso de media móvil.

\[\phi_{p} (B)(1-B)^{d} \ \ Y_{t}= \theta_{q}(B)\alpha_{t}\sim ARIMA(p,d,q)\]

ARIMA estacional multiplicativo (SARIMA)

El modelo ARIMA estacional incorpora factores tanto no estacionales como estacionales en un modelo multiplicativo: \(SARIMA(p,d,q)(P,D,Q)_s\). Propuso el siguiente modelo al tratar con una serie temporal que contiene fluctuaciones estacionales:

\[ \Phi_p(B^s)\,\phi_p(B)\,(1 - B)^d (1 - B^s)^D Y_t = \theta_q(B)\,\Theta_Q(B^s)\,a_t \tag{5} \]

Donde \(Y_t\) es el valor observado en el tiempo \(t\), \(a_t\) es el valor en el tiempo \(t\) del ruido blanco, \(d\) es el orden de diferenciación, \(\phi_p(B)\) es el componente autorregresivo ordinario de orden \(p\) y \(\theta_q(B)\) es el componente de media móvil ordinaria de orden \(q\), \(s\) es el número de estaciones en un año y \(D\) es el orden de la diferenciación estacional, \(\Phi_p(B^s)\) y \(\Theta_Q(B^s)\) son la diferencia autorregresiva estacional y la diferencia de media móvil de órdenes \(P\) y \(Q\) en el retardo \(s\).

Según Box y Jenkins (1976), los polinomios del operador son:

\[ \Phi_p(B) = \left(1 - \phi_1 B - \cdots - \phi_p B^p \right) \tag{6} \]

\[ \theta_q(B) = \left(1 + \theta_1 B + \cdots + \theta_q B^q \right) \tag{7} \]

\[ \Phi_p(B^s) = \left(1 - \Phi_1 B^s - \cdots - \Phi_p B^{sp} \right) \tag{8} \]

La metodología Box-Jenkins

se refiere a un método sistemático para identificar, ajustar, verificar y utilizar modelos de series temporales autorregresivos integrados de media móvil (ARIMA), y este método es apropiado para al menos 30 observaciones. Los tres pasos iterativos que deben emplearse al realizar un análisis de series temporales utilizando modelos ARIMA son la identificación del modelo mediante el análisis de datos históricos, la estimación de parámetros mediante la estimación de los parámetros desconocidos del modelo y la verificación diagnóstica mediante el análisis de residuos para determinar la adecuación del modelo.

Identificación del modelo

La identificación del modelo ARIMA adecuado requiere habilidades adquiridas mediante la experiencia (Montgomery DC, Jennings C, Kulahci M. (2015)). postula la siguiente tabla resumen sobre cómo identificar el modelo(Box, GEP, Jenkins, G. (1970)).

MODEOLO	FUNCION DE AUTOCORRELACION (FAC)	FUNCION DE AUTOCORRELACION PARCIAL (FACP)
ARIMA (P,D,0)	Decae a cero de forma amortiguada o oscilando.	Corte después del rezago o lag p.
ARIMA (0,d,q)	Corte después del rezago o lag q.	Decae a cero de forma amortiguada o oscilando
ARIMA (p,d,q)	Decae a cero de forma amortiguada o oscilando.	Decae a cero de forma amortiguada o oscilando

El valor de p se obtiene mediante autocorrelaciones parciales de datos estacionarios; si la función de autocorrelación parcial (PACF) se trunca tras unos pocos retardos, el último retardo con un valor elevado será el valor estimado de p , y si no se trunca, entonces p=0 (Box y Jenkins, 1976) . El valor de q se obtiene mediante la autocorrelación de datos estacionarios; si la función de autocorrelación (ACF) se trunca tras unos pocos retardos, el último retardo con un valor elevado será el valor estimado de q (Box y Jenkins, 1976). En el modelo ARIMA (p, d, q) , la función de autocorrelación será una mezcla de decaimiento exponencial y ondas sinusoidales amortiguadas después de los primeros qp retardos.

Estimación de parámetros

postula que existen varios métodos, como el de momentos, el de máxima verosimilitud y el de mínimos cuadrados, que pueden emplearse para estimar los parámetros del modelo identificado tentativamente. La mayoría de los modelos ARIMA son no lineales; se puede optar por la estimación de máxima verosimilitud una vez que se hayan determinado los valores de p, d y q, y se puede utilizar la retroproyección para obtener estimaciones de los residuos iniciales (Box y Jenkins, 1976).

Verificación de diagnóstico

La adecuación del modelo se comprobará mediante el análisis de residuos de los modelos AR y MA para verificar si el modelo ajustado es adecuado. Los residuos o perturbaciones del modelo deben comportarse como un proceso de ruido blanco. Si el modelo es adecuado, el diagrama de dispersión de los residuos debe presentar una forma rectangular, por lo que no debe mostrar ninguna tendencia. Si el modelo es apropiado, entonces la función de autocorrelación de la muestra residual no debe tener ninguna estructura para identificar. Se pueden utilizar pruebas estadísticas como la prueba aproximada de chi-cuadrado de adecuación del modelo y la prueba de Ljung-Box para probar la adecuación del modelo.20. Una vez ajustado el modelo adecuado, este puede utilizarse para realizar pronósticos.(Montgomery DC, Jennings C, Kulahci M. (2015))

Resultados y discusión

Se realizó un gráfico de series temporales del rendimiento total para el período 1980-2015 para comprobar si los datos eran estacionarios antes de realizar cualquier prueba estadística. El gráfico muestra una tendencia estable entre 1995 y 1998, un fuerte aumento en 1984 y una caída alrededor de 1986, seguido de un nuevo aumento en el rendimiento en 1998 y una disminución general hasta 2015. Los datos de la serie temporal no son estacionarios, como lo demuestra la ausencia de variación constante dentro del conjunto de datos. Sin embargo, se observó una tendencia decreciente, como se muestra en la (Figura 1)

plot(anios, yield_vec, type = "o", pch = 20, col = "blue",
     main = "Serie temporal",
     xlab = "Anios", ylab = "Yield")
grid()

Se realizó la prueba ADF (Tabla 2) para comprobar la estacionariedad y el valor p obtenido fue de \(0,6106 (> 0,5)\). No se rechazó la hipótesis nula y se concluyó que los datos no son estacionarios. Los investigadores procedieron al siguiente paso: diferenciar los datos de la serie temporal.

adf.test(DataFrame)

## 
##  Augmented Dickey-Fuller Test
## 
## data:  DataFrame
## Dickey-Fuller = -1.6781, Lag order = 3, p-value = 0.6994
## alternative hypothesis: stationary

Se observó que, tras la primera diferenciación, los datos se volvieron estacionarios (Figura 2), ya que tanto la media como la varianza se mantuvieron constantes. Por lo tanto, no fue necesario realizar más diferencias (d=1) para el modelo ARIMA (p, d, q), puesto que los datos se estabilizaron alrededor de cero.

DataFrame_d1 <- diff(DataFrame)

plot(DataFrame_d1, type = "o", pch = 20, col = "red",
     main = "Primera diferencia")
grid()

Se realizó una prueba adicional para comprobar la estacionariedad de los datos diferenciados (Tabla 3). Dado que el valor p es menor que 0,5, rechazamos la hipótesis nula y concluimos que los datos son estacionarios en su media y varianza después de la primera diferenciación.

adf.test(DataFrame_d1)

## 
##  Augmented Dickey-Fuller Test
## 
## data:  DataFrame_d1
## Dickey-Fuller = -3.5991, Lag order = 3, p-value = 0.04639
## alternative hypothesis: stationary

Identificación del modelo

El objetivo principal de esta etapa es encontrar el modelo autorregresivo y los términos de media móvil para obtener el modelo ARIMA (p, d, q) identificado. El correlograma de los datos diferenciados se examinó y se representó gráficamente como se muestra en las (figura 3 y 4).

acf(DataFrame_d1, main = "Funcion de autocorrelacion de los residuos (ACF)")

pacf(DataFrame_d1, main = "funcion de autocorrelacion parcial (PACF) de los residuos")

Se puede observar que p=0, ya que la función de autocorrelación parcial (PACF) en la (Figura 4) no se trunca, y q=1, ya que la función de autocorrelación (ACF) en la (Figura 3) se trunca después del retardo 1. Dado que realizamos la primera diferencia a los datos d=1, el modelo propuesto es ARIMA (1, 1, 0) sin estacionalidad. Los investigadores utilizaron además la función auto.arima del software R para confirmar el mejor modelo, ya que calcula la función de máxima verosimilitud junto con las funciones AIC y BIC. Por lo tanto, se determinó que el mejor modelo era ARIMA (1, 1, 0).

Estimación de parámetros

El siguiente paso consiste en determinar los parámetros de los términos autorregresivos y de media móvil que se incluyen en el modelo ajustado.

mymodel <- Arima(DataFrame, order = c(1,1,0))
summary(mymodel)

## Series: DataFrame 
## ARIMA(1,1,0) 
## 
## Coefficients:
##           ar1
##       -0.5999
## s.e.   0.1280
## 
## sigma^2 = 55715:  log likelihood = -261.27
## AIC=526.54   AICc=526.88   BIC=529.81
## 
## Training set error measures:
##                     ME     RMSE      MAE       MPE     MAPE      MASE
## Training set -28.53653 229.9084 187.8391 -2.804333 10.18945 0.7309283
##                     ACF1
## Training set -0.06087012

Como era de esperar, nuestro modelo tiene d = 1, que representa una diferenciación de orden 1. No hay diferenciación adicional en el modelo de mejor ajuste anterior. El modelo de mejor ajuste tiene un valor AR de orden 1 (p = 1) y un MR de orden 0 (q = 0), con un error estándar de 0.1280.

Diagnóstico del modelo Estacionariedad

(La figura 5) muestra los residuos, que se asemejan a una estructura de ruido blanco, ya que se desvían alrededor de una media cero y una varianza constante. El modelo ajustado es estacionario según la estructura de los residuos.

residuos <- residuals(mymodel)

plot(residuos, type="o",pch = 20, col="green",
     main="Residuos")

Prueba de normalidad

El histograma de residuos que se muestra en la (Figura 6) tiene una forma de campana que se asemeja a una distribución normal para los residuos del modelo.

hist(residuos,
     probability = TRUE,
     col = "lightgreen",
     main = "Histograma de residuos ",
     ylim = c(0, 0.0020))   

curve(dnorm(x, mean(residuos), sd(residuos)),
      add = TRUE,
      col = "red",
      lwd = 2)

El gráfico QQ normal ayuda a determinar si la variable dependiente sigue una distribución normal al representar gráficamente los cuantiles (es decir, percentiles) de nuestra distribución frente a una distribución teórica. La (figura 7) muestra que la distribución sigue una distribución normal, ya que sus puntos representados se encuentran generalmente en línea recta.

qqnorm(residuos,  pch = 20)
qqline(residuos,col="black")

Prueba de independencia

El correlograma d e la (Figura 8) y el correlograma parcial de la (Figura 9) no muestran ningún patrón estructural, lo que confirma la ausencia de autocorrelaciones seriales. No existen retardos significativos que superen el límite entre el retardo 1 y el retardo 17. El modelo ajustado presenta residuos con una distribución idénticamente dependiente y sin correlación con las variables del modelo.

acf(residuos, main="Funcion de autocorrelacion de los residuos (ACF)")

pacf(residuos, main="Funcion de autocorrelacion parcial (PACF) de los residuos")

Prueba de autocorrelaciones seriales

La prueba de Box-Ljung se realizó para comprobar la correlación serial de la siguiente manera:

\(H_{0}:\) No hay autocorrelación serial de la serie temporal. \(H_{1}:\) Existe autocorrelación serial de la serie temporal.

Box.test(residuos, lag=10, type="Ljung-Box")

## 
##  Box-Ljung test
## 
## data:  residuos
## X-squared = 11.953, df = 10, p-value = 0.2882

El valor p de 0.2882 (> 0,05) indica que los residuos son independientes, y aceptamos la hipótesis nula y concluimos que no hay autocorrelaciones seriales en el modelo ajustado.

Pronóstico

Los investigadores pronosticaron la producción futura de tabaco en Zimbabue. La (Figura 10) muestra las cifras de producción futura previstas, con una tendencia estable pero ligeramente decreciente. Los valores previstos para los pronósticos anuales se resumen en la (Tabla 6) , con un intervalo de confianza del 90 %. Los pronósticos indican que existe margen para aumentar la producción total si se implementan las medidas adecuadas.

pronosticos <- forecast(mymodel, h=5)

plot(pronosticos,type = "o",  pch = 20, col = "blue", main="Pronostico ARIMA")
grid()

data.frame(
  Year = 2019:2023,
  Forecast = pronosticos$mean,
  Low_95 = pronosticos$lower[,1],
  High_95 = pronosticos$upper[,1]
)

##   Year Forecast    Low_95  High_95
## 1 2019 1327.278 1024.7803 1629.776
## 2 2020 1273.629  947.8179 1599.440
## 3 2021 1305.813  907.0611 1704.565
## 4 2022 1286.506  855.1227 1717.889
## 5 2023 1298.088  821.0028 1775.174

Conclusión

El estudio demostró que la industria tabacalera tiene potencial de crecimiento, ya que los valores pronosticados mostraron una tendencia decreciente en los valores esperados, la cual puede revertirse si las partes interesadas clave, desde instituciones gubernamentales y privadas hasta los agricultores, implementan medidas estratégicas adecuadas. Los hallazgos de este estudio revelaron que la tendencia general de los rendimientos del tabaco es decreciente, un indicador para el sector agrícola de estrategias ineficientes y un posible deterioro de la salud de los suelos del país debido a enfermedades del suelo, que pueden resultar de una rotación de cultivos insuficiente, lo que conlleva una disminución del crecimiento económico, dado que el tabaco es la base del equilibrio económico de Zimbabue.

El análisis de series temporales permitió construir un modelo utilizando datos históricos, el cual se empleó posteriormente para pronosticar el rendimiento anual del tabaco hasta el año 2023. Los investigadores recomiendan a otros académicos realizar el proceso de pronóstico utilizando diferentes métodos, como las redes neuronales artificiales (aprendizaje automático), para realizar comparaciones y obtener el o los mejores modelos. ZIMSTAT y la Junta de la Industria Tabacalera (TIMB) pueden utilizar los valores pronosticados, así como la tendencia general proyectada por el modelo ARIMA, para la planificación estratégica.

Los responsables políticos y asesores estratégicos del sector agrícola deben implementar políticas que contribuyan a aumentar el rendimiento y revisarlas continuamente, ya que el mundo gira en torno a nuevas tecnologías para incrementar los volúmenes de producción, impulsando así el PIB de la economía.

Referencias

Edbrooke J.(2017). Análisis de técnicas de modelado de series temporales para pruebas de estrés empresarial.Tesis doctoral, Imperial College London.
Weigend AS, Gershenfeld NA (1994). Predicción de series temporales: Pronosticar el futuro y comprender el pasado. Lectura: Addison-Wesley, 1994, (Capítulo 1).
Tealab A.(2018). Pronóstico de series temporales mediante metodologías de redes neuronales artificiales: una revisión sistemática. Future Computing and Informatics Journal. 3(2), pp. 334-340.
Dhekale BS, Sahu PK, Vishwajith KP, Mishra P, Noman MD. (2014). Modelado y pronóstico de la producción de té en Bengala Occidental. 10(2), pp. 94-103.
Sankar TJ, Pushpa P. (2019). Diseño y desarrollo de análisis de series temporales para la producción de Saccharum afficinarum en India.Journal of Composition Theory.12(9), pp. 203-211.
Amin W, Amanullah M, Akbar A. (2014). Modelado de series temporales para la previsión de la producción de trigo en Pakistán. The Journal of Plant and Animal Sciences. 24(5), pp. 1444-1451.
Arivarasi R, Madhavhi G.(2015). Análisis de series temporales de la producción de hortalizas y pronóstico mediante el modelo ARIMA. Revista Asiática de Ciencia y Tecnología. 6(10), pp. 1844-1848.
Mithiya D, Datta L, Mandal K.(2019). Análisis de series temporales y pronóstico de la producción de semillas oleaginosas en la India: uso de un modelo autorregresivo integrado de media móvil y un método de agrupamiento de datos mediante redes neuronales. Revista Asiática de Extensión Agrícola, Economía y Sociología. 30(2), pp. 1-14.
Aslam, F., Salman, A., & Jan, I. (2019). Predicción de la producción de trigo en Pakistán mediante un enfoque de red neuronal artificial.Sarhad J. Agricult.,35(4), 1054-1062.
[ PubMed ] [ Referencia cruzada ] Adebiyi AA, Adewuni AO, Ayo CK. (2014). Comparación de modelos ARIMA y redes neuronales artificiales para la predicción del precio de las acciones. Revista de Matemáticas Aplicadas.2014.
Manoj K, Madhu A.(2014). Una aplicación del modelo de pronóstico ARIMA de series temporales para predecir la producción de caña de azúcar en la India. Facultad de Ciencias Económicas.9(1), pp. 81-94.
Das KR, Imon AHMR. (2017). Una breve revisión de las pruebas de normalidad. American Journal of Theoretical and Applied Statistics, 5, pp. 5-12.