A10U1

Equipo 5: Paulina Cortez, Andrea Salazar , Jaime Valenzuela, Dianey Velasquez

3/24/2022

Análisis de series de tiempo del consumo de frutas desde 1961 hasta el 2017

México, aunque no lo parezca, es uno de los países que más consume frutas en América, con un consumo per cápita de 110 kilogramos y es que los mexicanos gastan el 38.8% de sus ingresos en alimentos y bebidas. Este comportamiento, incluso, es superior al de Estados Unidos, Alemania o Japón, donde predominan las frutas procesadas.

Entre las frutas más consumidas en el país destacan:

  • El plátano tabasco: es la fruta más consumida gracias a su bajo precio.
  • La naranja: esto se debe a que gracias a sus características son fáciles de distribuir.
  • El limón: es similar a la naranja, pero es más vendido porque se utiliza mucho en las comidas típicas del país.

Otra variable que explica este positivo comportamiento es la cultura y preferencia del consumidor mexicano por frutas frescas.

Las personas de ingresos más bajos, destinan una gran parte a la compra de alimentos y bebidas, más que a educación y turismo.

El consumidor se beneficia de precios bajos durante todo el año, debido a la gran oferta de frutas de estación.

Recuperado de: Vizcaya, D. (2020, 13 diciembre). Te presentamos las tres frutas más consumidas en México. Soy Chef. https://soychef.today/alimentos/Te-presentamos-las-tres-frutas-mas-consumidas-en-Mexico-20201212-0010.html

imagen de frutas

Paquetes

library(pacman)
p_load("tidyverse", "lubridate", "forecast", "TTR", "MLmetrics", "tseries", "fpp", "TSstudio", "xfun", "mFilter")

Pre procesamiento de datos

Se importará el conjunto de datos de consumo per cápita desde 1961 hasta 2017.

library(readr)
Frutas <- read_csv("Frutas.csv")
## Rows: 57 Columns: 4
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (2): Entity, Code
## dbl (2): Year, Fruits - Excluding Wine - Food supply quantity (kg/capita/yr)...
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

Se hace la serie de tiempo

frutasTs <- ts(Frutas[ ,c(4)],start =1961,end =2017,frequency = 1)
autoplot(frutasTs, xlab = "Año",ylab = "Kg")

La anterior gráfica representa el consumo per cápita de frutas a lo largo del tiempo en México. La gráfica comienza en el año 1961 y termina en el 2018. Se puede observar como el consumo per cápita de frutas tiene la tendencia a subir. Teniendo la mayor producción y por lo tanto consumo en los años 2001 y 2018 aproximadamente. Este aumento en la producción fue similar en todas las frutas, debido a la Ley de producción, certificación y comercio de semillas establecida en 1961, sin embargo, la dinámica estuvo impulsada por las frutas, cuya participación en la producción creció significativamente. Tal como sucedió con la dinámica general,la superficie de cultivos creció hasta 1997, período en que los rendimientos comenzaron a crecer significativamente. Esta transformación productiva estuvo vinculada a una serie de estímulos públicos y transformaciones en el ámbito productivo que catapultaron la producción de frutas.

verificar si existen datos faltantes

anyNA(frutasTs)
## [1] FALSE

Significa que no existen datos faltantes.

Decomponer una serie de tiempo en sus partes principales

library(mFilter)
filtered <- mFilter(frutasTs,filter="HP")
plot(filtered)

La anterior gráfica representa una descomposición de la serie de tiempo. La primera parte, muestra principalmente la tendencia de la serie de tiempo. Esta tendencia está en constante crecimiento, apesar de sus momentaneas bajas, el consumo per cápita de frutas está muy por encima al consumo de 1961. Se observa de igual manera, que el consumo per cápita de frutas alcanzó su máximo en los principios de los 2000 y en 2018 aproximadamente. La segunda parte, representa la serie de tiempo sin la tendencia, de esta parte, podemos rescatar que dicha serie de tiempo no tiene un patrón en específico, ya que tiene un comportamiento irregular con el paso del tiempo.

autoplot(mstl(frutasTs))

Esta gráfica de igual manera, representa la descomposición de la serie de tiempo, este es un proceso que identifica y calcula las diversas componentes existentes en una serie temporal, así como la forma en que estas se relacionan entre sí. Sin embargo esta gráfica, a diferencia de la anterior nos permite visualizar los elementos de la descomposición por separado. Estos elementos son: el comportamiento de la serie del tiempo (Data), la tendencia de la serie (Trend) y los residuos (Remainder).

División de los datos para validación cruzada

test_frutas <- tail(frutasTs, 12) #20% para pruebas

train_frutas <- head(frutasTs, length(frutasTs)-12) #80% para entrenamiento

Visualizando resultados

frutas_ten <- holt(train_frutas,damped = TRUE,h=12)
frutasTs %>%
  autoplot(series = "actual") +
  autolayer(frutas_ten$fitted,series = "train") +
  autolayer(frutas_ten$mean, series = "test") +
  theme_minimal()

Este gráfico nos permite visualizar los resultados del modelo. Podemos observar que nuestro modelo tiene errores medios, por lo que, no sería posible encontrar patrones que nos ayuden a predecir resultados. Para comprobar lo anterior, evaluaremos la precisión del modelo.

Evaluar la precisión del modelo

eval_ses <- accuracy(frutas_ten, test_frutas)
eval_ses
##                       ME     RMSE      MAE        MPE     MAPE      MASE
## Training set  0.08953534 5.633107 4.597442 -0.1155818 5.263609 0.9749732
## Test set     -5.81364370 8.098185 6.152558 -5.6800627 5.981642 1.3047646
##                     ACF1 Theil's U
## Training set 0.005932472        NA
## Test set     0.580868328  1.812936

De acuerdo con el analisis de precision tenemos un error medio de: 5.9%.

Utilizando el moelo SARIMA o ARIMA

Los modelos SARIMA captan el comportamiento puramente estacional de una serie, en forma similar, como hemos visto, se realiza para la componente regular o no estacional. Una serie con influencia solamente por la componente estacional puede ser descrito por un modelo SARIMA

Empezamos haciendo una prueba al conjunto de datos:

Esta prueba (dickey-fuller) sirve para en funcion del valor de P, determinar si los datos SON o NO SON estacionarios.

adf.test(frutasTs)
## 
##  Augmented Dickey-Fuller Test
## 
## data:  frutasTs
## Dickey-Fuller = -3.6536, Lag order = 3, p-value = 0.03659
## alternative hypothesis: stationary

De acuerdo con esta prueba los datos NO son estacionarios, esto debido a que el valor de P es menor de 0.05.

Analizando la serie de tiempo por medio de un modelo SARIMA

frutas_auto <- auto.arima(y= train_frutas, seasonal = F)
summary(frutas_auto)
## Series: train_frutas 
## ARIMA(0,1,0) 
## 
## sigma^2 estimated as 34.47:  log likelihood=-140.32
## AIC=282.63   AICc=282.73   BIC=284.42
## 
## Training set error measures:
##                    ME     RMSE      MAE      MPE     MAPE      MASE       ACF1
## Training set 1.194999 5.805686 4.611888 1.287063 5.189152 0.9780367 -0.1448931

Visualizando la grafica de resultados de datos reales versus las predicciones (forecasting) del modelo SARIMA

train_frutas %>%
  autoplot(series="actual") +
  autolayer(frutas_auto$fitted, series ="SARIMA auto") +
  theme_minimal()

El anterior gráfico, representa los resultados del modelo SARIMA, el cual es un modelo estadístico que utiliza variaciones y regresiones de datos estadísticos con el fin de encontrar patrones para una predicción hacia el futuro. Podemos observar como el modelo se ajusta, por lo que podríamos encontrar patrones para realizar predicciones, sin embargo, este modelo puede presentar fallas, debido a que sigue teniendo errores medios.

Conclusión.

En conclusión, el modelo nos permite encontrar patrones que nos permitan realizar predicciones con respecto a la producción de frutos en México. De igual manera, podemos observar el comportamiento de la producción de frutas a lo largo del tiempo. Esta, aumentó continuamente apartir de 1961, debido a la Ley de producción, certificación y comercio de semillas y a los múltiples estímulos públicos y transformaciones en el ámbito productivo que catapultaron la producción de frutas, principalmente la producción de Manzana, la cual fue una de las frutas con mayor crecimiento. Este aumento en la producción de frutas ocasionó que el consumo per cápita de frutas también aumentara.

Conclusión personal.

Después de realizar nuestro análisis, hemos llegado a un modelo que nos permite predecir la producción de frutas en México. A su vez, he podido llegar a la conclusión que, la gran mejoría en la producción se debe a distintos eventos que la han favorecido, tal como la Ley de producción, certificación y comercio de semillas o los apoyos brindados, es por ello que la producción ha avanzado mucho a comparación del año 1961.

Descargas

Descarga de el código

xfun::embed_file("A10U1.Rmd")

Download A10U1.Rmd

Descarga el conjunto de datos

xfun::embed_file("Frutas.csv")

Download Frutas.csv