Resumen

Este artículo selecciona los datos brutos de la producción de maíz de la ciudad de Dehui, provincia de Jilin, desde 1990 hasta 2000. Mediante técnicas de limpieza de datos, conversión de datos e integración de datos, se obtiene un conjunto de datos de series temporales. Se elige el método apropiado de series temporales ARIMA (Modelo Autorregresivo Integrado de Media Móvil) para confirmar la producción de maíz en un modelo de predicción de series temporales. Los resultados experimentales muestran que, al comparar la producción real con la predicción obtenida por el modelo para los años 2001 a 2003, el error es muy pequeño; el error relativo puede controlarse dentro del \(5\%\). Esto demuestra que el modelo ARIMA(2,2,1) puede predecir razonablemente la tendencia de desarrollo de la producción de maíz en esta región, y el resultado de la predicción puede proporcionar evidencia teórica muy importante para que el departamento de gestión de producción agrícola tome decisiones.

Palabras clave

modelo de predicción; series temporales; estadística no paramétrica; ARIMA

1. Introducción

China es un gran país agrícola. En las últimas décadas, China ha invertido considerablemente en la recopilación de diversos datos del censo agrícola y ha acumulado una gran cantidad de información sobre cultivos, condiciones del suelo, situación de fertilizantes, rendimientos, entre otros. Lograr que la ciencia y la tecnología sirvan de manera más efectiva a la producción agrícola es un asunto importante relacionado con el bienestar de las personas.

WangBo y sus colegas utilizaron la teoría del peso óptimo para confirmar el peso, y combinaron el modelo de suavizado exponencial de series temporales y el GM(1,1) para establecer el modelo de protección combinado de la producción de granos en la provincia de Jilin[1]. Basándose en la teoría de modelos de series temporales, ZhengYi y sus colaboradores establecieron el modelo de predicción de series temporales que se ajusta al análisis de ventajas comparativas integradas del arroz en la provincia de Heilongjiang. También demostraron que el modelo de series temporales tiene cierta ventaja en la predicción del análisis de ventajas comparativas de los cultivos[2]. ChenRuWen y sus colegas propusieron la expresión general del modelo de series temporales lineal/no lineal, que sería aplicable a sistemas lineales/no lineales, e incluso utilizado directamente para establecer modelos y predicciones[3]. Los resultados de estos estudios muestran que el algoritmo temporal es factible para predecir la producción. Sin embargo, el modo de predicción de producción de maíz basado en series temporales rara vez se ha reportado. Además, los resultados de investigación anteriores no han realizado el establecimiento del modelo sobre la base de eliminar la relevancia entre la producción de maíz, lo que puede provocar un efecto de predicción insatisfactorio. Por lo tanto, este artículo combina los resultados de las investigaciones, basándose en el sistema SPSS[4], utilizó métodos ARIMA y métodos no paramétricos[5][6] para investigar la tendencia de desarrollo de la producción de maíz en la ciudad de Dehui, provincia de Jilin, y estableció este modelo local de predicción de producción de maíz. El resultado de predicción de este modelo puede proporcionar una base teórica muy importante para la toma de decisiones del departamento de gestión de producción agrícola.

2. Fuentes de datos y análisis de datos

Este artículo seleccionó la producción de maíz en la ciudad de Dehui desde 1990 hasta 2000 como datos brutos. Como se muestra en la Tabla 1.

Para obtener un conjunto de datos de series temporales satisfactorio, los datos brutos deben procesarse mediante técnicas de limpieza de datos, conversión de datos e integración de datos para eliminar ruido y valores singulares.

Se realiza un gráfico de series temporales sobre los datos brutos (Fig. 1). Como muestra la Fig. 1: aunque en los últimos diez años la producción de maíz de la ciudad de Dehui ha experimentado cierto grado de fluctuaciones, en general muestra una tendencia al alza.

Por lo tanto, esta serie temporal de producción de maíz es una serie temporal no estacionaria.

Año Producción (toneladas)
1990 8790
1991 8970
1992 6720
1993 8363
1994 11133
1995 10344
1996 9363
1997 6923
1998 9144
1999 12052
2000 5973

3. Establecimiento y examen del modelo de predicción de series temporales de producción de maíz

El modelo ARIMA se denomina modelo autorregresivo integrado de media móvil, un método famoso de predicción de series temporales propuesto por Box y Jenkins en la década de 1970. Por lo tanto, se llama modelo box-jenkins o algoritmo Box-Jenkins.

La idea básica del modelo ARIMA es: la serie de datos sobre el objeto predicho que se forma con el paso del tiempo se considera una secuencia aleatoria, y mediante ciertos modelos matemáticos se describe la secuencia. Una vez identificado este modelo, podemos predecir el valor futuro analizando el valor pasado y presente de la serie temporal.

El procedimiento de predicción del método ARIMA es: en primer lugar, utilizando el análisis de autocorrelación y el análisis de autocorrelación parcial, se analizan las características de la serie temporal de producción de maíz, seleccionando un modelo específico para ajustar los datos de la serie temporal analizados, y luego se estiman los parámetros del modelo utilizando los datos de la serie temporal, juzgando si el modelo es apropiado o no. Si no es apropiado, se regresa al primer paso. Finalmente, se utiliza el modelo apropiado para predecir el valor futuro.

3.1 Modelo y reconocimiento del modelo

Serie temporal se refiere a un grupo de datos que se obtienen mediante la observación sucesiva del mismo tipo de fenómenos que aparecen en diferentes momentos.

Supongamos que \(X = (x_{1},x_{2},\dots,x_{r},\dots x_{n})\) es la serie temporal que se ha recopilado en intervalos de tiempo equiespaciados desde 1 hasta \(n\).

Donde: \(t\) es el primer punto de tiempo \(t\), \(x^{t}\) es el valor de la serie temporal de producción de maíz en el punto \(t\).

La forma general del modelo ARIMA \((p,d,q)\) (es decir, Autorregresivo Integrado de Media Móvil) es:

\[\phi (B)(\nabla^{d}x_{t}) = \theta (B)e_{t},\]

O

\[\phi (B)(1 - B)^{d}x_{t} = \theta (B)e_{t},\]

Donde \(B\) es el operador de desplazamiento hacia atrás, \(Bx_{t} = x_{t - 1}\), \(\nabla\) es el símbolo de diferenciación, \(\nabla = 1 - B\), \(d\) es el orden de diferenciación, \(\phi (B) = 1 - \phi_{1}B - \phi_{2}B^{2} - \dots -\phi_{p}B^{p}\) es el operador autorregresivo, \(p\) es el orden autorregresivo, \(\phi_{1},\phi_{2},\dots ,\phi_{p}\) son los parámetros parciales autorregresivos, \(\theta (B) = 1 - \theta_{1}B - \theta_{2}B^{2} - \dots -\theta_{p}B^{p}\) es el operador de media móvil, \(q\) es el orden de la media móvil, \(\theta_{1},\theta_{2},\dots ,\theta_{q}\) son los parámetros parciales de media móvil, \(e_{t}\) es una secuencia de ruido blanco.

El modelo se reconoce en función de las características de autocorrelación y correlación parcial de las muestras de la serie temporal y del tipo de modelo seleccionado, determinando al mismo tiempo el orden apropiado del modelo.

Según el gráfico de autocorrelación (AFC, ver Fig. 2) y el gráfico de correlación parcial (PAFC, ver Fig. 3), tanto la función de autocorrelación como la de correlación parcial de la serie temporal son de cola larga en lugar de tener puntos de corte. Debido a que la producción de maíz de Dehui es una serie temporal no estacionaria, es necesario realizar un procesamiento de diferenciación estable para esta serie temporal con el fin de eliminar su tendencia lineal. Por lo tanto, podemos afirmar que esta secuencia es una secuencia ARIMA(p, d, q).

De la Fig. 2 podemos concluir que \(\mathrm{p} = 2\); de la Fig. 3 podemos concluir que \(\mathrm{q} = 1\). Por lo tanto, realizamos un ajuste redundante para cada valor posible de los 3 parámetros p, d, q del modelo ARIMA (p, d, q) bajo el sistema SPSS. Determinamos el mejor orden del modelo según el criterio BIC propuesto en 1976 por Akaike. Mediante comparación, en el caso de que el criterio de convergencia máximo sea 10, el cambio de parámetros es del \(0.001\%\), y el cambio de suma de cuadrados para el caso es del \(0.001\%\). Cuando se toma (p, d, q) \(= (2, 2, 1)\), el valor AIC (161.992) y el valor BIC (162.310) alcanzan el mínimo (ver Tabla 2), siendo este modelo relativamente el más superior. Por lo tanto, se selecciona inicialmente el modelo de predicción de series temporales de producción de maíz como ARIMA (2, 2, 1).

Tabla 2. Tablas de bondad de ajuste
ARIMA.p.d.q. AIC BIC
(2,0,1) 184.280 185.491
(2,1,1) 171.506 172.295
(2,2,1) 161.992 162.310

3.2 Estimación de parámetros

Se realiza la estimación de los parámetros del modelo ARIMA (2, 2, 1), los resultados se muestran en la tabla 3. La tabla 3 de valores estimados de los parámetros proporciona los parámetros esenciales del modelo para el establecimiento posterior del modelo de predicción.

Tabla 3. Estimaciones de parámetros
Parámetro Estimaciones Error.estándar t Sig..aproximada
No estacional 0.053 0.657 -0.081 0.939
AR1 NA NA NA NA
AR2 -0.662 0.417 -1.587 0.188
MA1 0.876 2.514 0.348 0.745
Constante -157.293 410.063 -0.384 0.721

3.3 Prueba de adaptación

Un buen modelo debería ser capaz de extraer casi toda la información de la secuencia de las muestras. En otras palabras, la secuencia residual de ajuste ya no contiene información relacionada; es una secuencia de ruido blanco. Utilizando el método de prueba chi-cuadrado de SPSS y la prueba KS de una muestra, se realiza la prueba de adaptación de los datos brutos y la secuencia de error (residual) del modelo ARIMA (2,2,1). Los resultados de la prueba se muestran en la tabla 4:

Tabla 4. Prueba de secuencia residual
Modelo Valor.Q Valor.λ. K.SZ Sig
ARIMA 3.815 31.20456 56.143 0

La Tabla 4 muestra: \(\mathrm{Q} = 3.185 < \lambda^2 = 31.204\), lo que indica que la secuencia residual es independiente; pero el valor K-SZ es \(56.143 > \mathrm{Sig.} = 0.000\), lo que indica que la secuencia residual es normal. Por lo tanto, la serie residual del modelo ARIMA (2, 2, 1) es una secuencia de ruido blanco, y el modelo ARIMA (2, 2, 1) puede reflejar bien la tendencia de desarrollo de la producción de maíz de Dehui.

3.4 Ajuste real y prueba de predicción

Como muestra la Figura 4: el valor de predicción está muy cerca del valor real. Esto demuestra que el modelo ARIMA (2, 2, 1) puede predecir razonablemente la tendencia de desarrollo de la producción de maíz en esta región.

Predicción de la producción de maíz para los años 2001 a 2003 utilizando el modelo ARIMA (2, 2, 1). El resultado de la comparación entre el valor real y el valor de predicción se muestra en la Tabla 5:
Tabla 5. Valor real y valor de predicción
Año Producción.real Producción.predicha Error
2001 8327 8512 0.022
2002 7290 6970 -0.044
2003 9581 9832 0.026
Note:
Error calculado como (predicho - real) / real

Como se puede observar en la Tabla 5: al comparar el valor real de producción de maíz con el valor de predicción obtenido por el modelo ARIMA (2, 2, 1), el error es muy pequeño; el error relativo puede controlarse dentro del \(5\%\). Por lo tanto, podemos utilizar el modelo para predecir la producción futura de maíz en Dehui.

4. Conclusiones

En este artículo, según los datos de producción de maíz de Dehui en los últimos años, bajo el entorno SPSS, utilizando métodos ARIMA y métodos no paramétricos para confirmar la producción de maíz en un modelo de predicción de series temporales ARIMA (p, d, q). Hemos investigado desde los siguientes cuatro aspectos: identificación del modelo, estimación de parámetros, prueba de adaptación y ajuste real para confirmar los parámetros del modelo (p, d, q), e inspeccionar el efecto de predicción del modelo.

  1. Los resultados experimentales muestran que, al comparar la producción real con la predicción obtenida por el modelo para los años 2001 a 2003, el error es muy pequeño; el error relativo puede controlarse dentro del \(5\%\). Esto demostró que nuestro modelo es efectivo y que predecir la producción mediante el algoritmo de series temporales es factible, y el resultado de la predicción puede proporcionar evidencia teórica muy importante para que el departamento de gestión de producción agrícola tome decisiones.

  2. La ventaja del modelo de series temporales que creamos en este artículo es su simplicidad, practicidad y amplio rango de aplicación. Sin embargo, algunas emergencias (como sequías, granizadas y otros desastres naturales) pueden afectar la estabilidad de la predicción. Por lo tanto, para reducir el error de predicción de la producción de maíz y lograr pronósticos más precisos, debemos ajustar el modelo según los cambios de múltiples factores.

  3. La innovación del artículo es que se analizó una gran cantidad de datos históricos de producción de maíz mediante el algoritmo de series temporales de Microsoft, se estableció un modelo predictivo y se obtuvo la tendencia de los cambios en la producción de maíz, prediciendo la producción futura. Mediante el establecimiento de un modelo específico, se logró la aplicación de la tecnología de minería de datos en la predicción de la producción de maíz. Esto demostró que nuestro modelo es efectivo y que predecir la producción mediante el algoritmo de series temporales es factible.

5. Referencias

[1] B. Wang, Y.B. Guo, L.B. Gao, “Application of Optimum Weighted Forecasting Method in Grain Production Forecast of Jilin Province”. Journal of Jilin Agricultural University, 2008,30(5):760-763.

[2] Y. Zheng, J. Meng, “Prediction of Comparative Advantage for Rice in Heilongjiang Province by Time Series Models”, Journal of Northeast Forestry University, 2008,36(10):65-66.

[3] R.W. Chen, R. Huang, J.F. Shi, “General expression for linear and nonlinear time series model and its engineering application”. Journal of Southeast University (Natural Science Edition), 2008,38(6):1077-1080.

[4] Z.L. Wang, Time series analysis[M]. Beijing: China Statistics Press, 2000.

[5] J.P. Zhu, R.F. Yin, SPSS application of statistical analysis. Beijing: Tsinghua University Press, 2007.1.

[6] W.D. Lu, SPSS for windows Statistical Analysis (3rd edition), Beijing: Publishing House of Electronics Industry, 2006.6.