EU1

Equipo 5: Paulina Cortez, Andrea Salazar, Alfredo Valenzuela, Elisa Velasquez.

5/4/2022

Caso estudio de abejas

1.- Diferencias entre métodos supervisados y no supervisados

La principal característica que los diferencia son los datos de entrenamiento, esto debido a que, los métodos supervisados aprenden en las relaciones entre datos que han sido proporcionados con anterioridad, observando que entradas producen qué salidas. Por otro lado, los métodos no supervisados toman características fundamentales de los datos para entender la estructura de los datos y así poder clasificarlos.

Profundizando un poco más, en los métodos supervisados el objetivo principal es llegar a una predicción de los datos nuevos, ya que se conocen los resultados que pueden resultar. A diferencia de los métodos no supervisados, los cuales buscan obtener información a partir de una gran cantidad de datos.

En resumen, los supervisados basan su aprendizaje en datos de entrenamiento que son conocidos con anterioridad, de esta manera el algoritmo le permite aprender para llegar a una predicción. Mientras que en los métodos no supervisados los datos de entrenamiento no son conocidos con anterioridad, por lo que su aprendizaje se basa en la agrupación, donde se busca obtener información a partir de las características similares en los datos.

2.- Proceso de resolución de problema usando ciencia de datos * planteamiento del problema * busqueda de datos para resolver las dudas de dicho problema * planteamiento del objetivo * analisis del problema con los datos obtenidos - Preparación de datos - Utilización de metodos para encontrar: realizaciones entre variables, secuencias, tendencia o ciclos en los datos. - conclusiones en base a los resultados obtenidos

Librerias

library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.4     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.0.1     v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()
library(rpart)
library(rattle)
## Warning: package 'rattle' was built under R version 4.1.3
## Loading required package: bitops
## Rattle: A free graphical interface for data science with R.
## Versión 5.5.1 Copyright (c) 2006-2021 Togaware Pty Ltd.
## Escriba 'rattle()' para agitar, sacudir y  rotar sus datos.
library(rpart.plot)
## Warning: package 'rpart.plot' was built under R version 4.1.3
library(pacman) #para importar la biblioteca "pacman"
## Warning: package 'pacman' was built under R version 4.1.2
p_load("prettydoc", "DT", "xfun", "dplyr", "psych", "GGally", "ggplot2","readr", "gridExtra","leaflet","TSstudio", "dplyr", "corrplot","lmtest","car","plotly", "gganimate","gifski","scales","tseries", "latticeExtra","forecast")
  • ggplot: Lo usaremos para realizar gráficas más atractivas
  • xfun: Se usará para añadir archivos de descarga (datos y código)
  • DT: Se usará para generar una tabla interactiva de datos
  • readr: Se usará para leer archivos cvs que contienen los datos a utilizar
  • preattydoc: Se usará para hacer el documento más visualmente atractivo

Datos usados (Con su respectivo diccionario y fuentes)

library(readxl)
exp <- read_csv("expmiel_mexico.csv")
## Rows: 311 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (3): YEAR, MES, SE32403
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
Colmenas <- read_csv("Colmenas.csv")
## Rows: 30 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): yearc, Colmenas
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
tempmedia <- read_csv("tempmedia.csv")
## Rows: 30 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): yearc, tempmedia
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
lluvia<- read_csv("lluvias.csv")
## Rows: 30 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (2): year, milimetros
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
plaguicida <- read_excel("plaguicidas.xlsx")
poblacion <- read_csv("poblacion.csv")
## Rows: 30 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): poblacion
## dbl (1): year
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
produccion <- read_csv("produccion.csv")
## Rows: 31 Columns: 2
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## chr (1): produccion
## dbl (1): año
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
def <- read_csv("deforestacion.csv")
## Rows: 20 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (3): year, deforestacion, CO2
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.
perdida <- read_csv("perdida.csv")
## Rows: 20 Columns: 3
## -- Column specification --------------------------------------------------------
## Delimiter: ","
## dbl (3): year, perdida, CO2
## 
## i Use `spec()` to retrieve the full column specification for this data.
## i Specify the column types or set `show_col_types = FALSE` to quiet this message.

Introducción (antecedentes)

La abeja es uno de los animales más importantes del mundo y su función en el ecosistema es indispensable para el ser humano. Sin embargo, a causa de los pesticidas, deforestación y la misma actividad humana el 90% de esta especie ha desaparecido, lo que convierte a las abejas en una de las especies que se encuentran en peligro de extinción.

Las consecuencias de la extinción de esta especie, son más graves de lo que parece a simple vista. Esto debido a que gran parte de la alimentación de los seres vivos dependen, de manera directa o indirecta, de ella. Además de lo anterior, el valor económico de la labor de polinización de las abejas para la agricultura ronda los 265,000 millones de euros anuales alrededor del mundo.

La extinción de esta especie tendría un gran impacto negativo en nuestro país, tanto en lo social como en lo económico. Ya que de la apicultura, actividad agropecuaria dedicada a la crianza de abejas, dependen más de 43 mil productores y generan en promedio 124 millones de dólares anuales. Es por ello, que la extinción de las abejas sería dramático, ya que causaría grandes daños en la biodiversidad, en la agricultura y en nuestra alimentación.

Objetivos (general y particulares, planteamiento del problema).

La situación actual de las abejas, ha provocado cambios significativos en la producción de miel en México, por lo que, la exportación a Estados Unidos, Japón y Alemania se ve afectada de igual manera. Por ello, el objetivo del siguiente caso de estudio es analizar mediante diversos métodos, el impacto que tiene la disminución de abejas, dando respuesta a las siguientes incógnitas.

  • ¿Cómo ha sido el comportamiento de la producción de miel durante los últimos años?

  • ¿Cómo afecta la extinción de abejas en la producción de miel?

Marco teórico (aquí explica acerca de su tema con fuentes)

La polinización es un proceso fundamental para la supervivencia de los ecosistemas, esencial para la producción y reproducción de muchos cultivos y plantas silvestres. Casi el 90 por ciento de las plantas con flores dependen de la polinización para reproducirse; asimismo, el 75 por ciento de los cultivos alimentarios del mundo dependen en cierta medida de la polinización y el 35 de las tierras agrícolas mundiales. Los polinizadores no solo contribuyen directamente a la seguridad alimentaria, sino que además son indispensables para conservar la biodiversidad. [Retomado de la ONU]

Los polinizadores son animales que se alimentan del néctar de las flores y durante estas paradas, transportan polen de una flor a otra, lo que provoca que las plantas puedan producir frutos. Lo anterior se llama fecundación cruzada. Estos animales son responsables de la producción de múltiples frutos y de la misma miel, este intercambio mantiene la diversidad genética. ¿Por qué son importantes? Estas especies son indispensables para el medio ambiente, ya que son responsables de la reproducción sexual de más del 80% de las plantas.(IPBES 2016).

Producción de miel en México: México es el noveno productor de miel a nivel global, y décimo tercer mayor exportador, siendo Estados Unidos, Japón y Alemania sus principales destinos. Dicha producción tiene lugar en la península de Yucatán, principalmente. Siendo esta la responsable del 40% de la producción de miel en el país, esto quiere decir que casi la mitad de la miel proviene de los estados de Yucatán, Campeche y Quintana Roo.

En México, la importancia de esta actividad se debe a su gran relevancia social y económica, esto debido a que representa una fuente de empleos e ingresos para una gran cantidad de productores a lo largo y ancho del país. Sin embargo está actividad ha tenido grandes cambios con el paso de los años, siendo cada vez menor el número de toneladas producidas en el país.

Importancia de la apicultura en México: economia y medio ambiente

Las abejas meliponas son la especie nativa de México, éstas son de vital importancia debido a su función como polinizadoras de plantas de interés como el café, el chile, variedades de granos, semillas y frutos. Asimismo, la fabricación de miel es muy importante, existen más de 43 mil apicultores a nivel nacional, quienes en los últimos 10 años su trabajo ha colocado a México como el quinto lugar como exportador de miel y el noveno lugar como productor de miel.

Método (aquí explica cómo funcionan las técnicas y se desarrolla su aplicación)

Para realizar este trabajo utilizaremos 3 métodos distintos con el objetivo de completar nuestro análisis, dichos métodos son los siguientes:

Series de tiempo: Las series de tiempo permiten analizar el comportamiento dado de un conjunto de datos en cierto periodo de tiempo, la información obtenida de su análisis suele ser útil en diferentes campos. Pero mas que nada se utiliza para predicciones. Al descomponer una serie de tiempo es posible analizar patrones, como la ciclicidad y la estacionalidad.

Modelo SARIMA: Capta el comportamiento puramente estacional de una serie, en forma similar, como hemos visto, se realiza para la componente regular o no estacional. Una serie con influencia solamente por la componente estacional puede ser descrito por un modelo SARIMA

Regresión lineal múltiple: Permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores X1X2X3. Se utiliza para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella. Los modelos lineales múltiples siguen la siguiente ecuación: \[ Y_{i}=(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+\cdots+\beta_{n}X_{ni})+e_{i} \]

Resultados y discusión (las gráficas y tablas resultantes explicadas)

Exportación de miel

exportTs <- ts(exp[ ,c(3)],start =1993,end =2018,frequency = 12)
plot(exportTs, ts.colour = "blue", ts.linetype = "dotted")
## Warning in plot.window(xlim, ylim, log, ...): "ts.colour" is not a graphical
## parameter
## Warning in plot.window(xlim, ylim, log, ...): "ts.linetype" is not a graphical
## parameter
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "ts.colour" is not
## a graphical parameter
## Warning in title(main = main, xlab = xlab, ylab = ylab, ...): "ts.linetype" is
## not a graphical parameter
## Warning in axis(1, ...): "ts.colour" is not a graphical parameter
## Warning in axis(1, ...): "ts.linetype" is not a graphical parameter
## Warning in axis(2, ...): "ts.colour" is not a graphical parameter
## Warning in axis(2, ...): "ts.linetype" is not a graphical parameter
## Warning in box(...): "ts.colour" is not a graphical parameter
## Warning in box(...): "ts.linetype" is not a graphical parameter

En esta gráfica se muestra el crecimiento de la exportación de miel y en esto nos vamos a basar para hacer nuestro análisis de relación entre el número de colmenas, la producción y la exportación de miel.

Relación entre colmenas de abejas, temperatura, lluvias, plaguicidas, poblacion y produccion

Colmenas1 <- t(Colmenas$Colmenas)
Colmenas1 <- as.vector(Colmenas1)
Colmenas1 <- Colmenas1[2:30]
Colmenas1 <- as.numeric(Colmenas1)
Colmenas1 <- as.vector(Colmenas1)

temperatura <- t(tempmedia$tempmedia)
temperatura <- as.vector(temperatura)
temperatura <- temperatura[2:30]
temperatura <- as.numeric(temperatura)
temperatura <- as.vector(temperatura)

lluvias <- t(lluvia$milimetros)
lluvias <- as.vector(lluvias)
lluvias <- lluvias[2:30]
lluvias <- as.numeric(lluvias)
lluvias <- as.vector(lluvias)

plaguicidas <- t(plaguicida$toneladas)
plaguicidas <- as.vector(plaguicidas)
plaguicidas <- plaguicidas[1:29]
plaguicidas <- as.numeric(plaguicidas)
plaguicidas <- as.vector(plaguicidas)

poblacion1 <- t(poblacion$poblacion)
poblacion1 <- as.vector(poblacion1)
poblacion1 <- poblacion1[1:29]
poblacion1 <- as.numeric(poblacion1)
poblacion1 <- as.vector(poblacion1)

produccion1 <- t(produccion$produccion)
produccion1 <- as.vector(produccion1)
produccion1 <- produccion1[2:30]
produccion1 <- as.numeric(produccion1)
produccion1 <- as.vector(produccion1)


datos1 <- data.frame(Colmenas1, temperatura, lluvias, plaguicidas, poblacion1, produccion1)
datos5 <- data.frame(Colmenas1, lluvias, produccion1)

Matriz de correlación

ggpairs(datos1, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Figura 2. Grafico de coeficientes de correlación de Pearson En este gráfico se muestran las correlaciones del número de colmenas con distintos factores, dentro de esa imagen se puede observar como la población es la que tiene una correlación negativa mayor, y esto se puede entender como: a mayor número de población menos abejas habrá en el mundo. Igualmente se observa como las lluvias son las únicas con las que comparte una correlación positiva, ya que, es la única variable que estamos analizando la que realmente le ofrece un beneficio a las abejas.

Modelo de regresión lineal múltiple

modelo2 <- lm(Colmenas1 ~ temperatura + lluvias + plaguicidas + poblacion1 + produccion1)
step(object = modelo2, direction="both", trace = 1)
## Start:  AIC=692.97
## Colmenas1 ~ temperatura + lluvias + plaguicidas + poblacion1 + 
##     produccion1
## 
##               Df  Sum of Sq        RSS    AIC
## - plaguicidas  1 1.0565e+10 4.6812e+11 691.64
## - temperatura  1 1.4661e+10 4.7221e+11 691.89
## - lluvias      1 2.3712e+10 4.8127e+11 692.44
## <none>                      4.5755e+11 692.97
## - produccion1  1 1.0157e+11 5.5913e+11 696.79
## - poblacion1   1 2.3288e+11 6.9044e+11 702.91
## 
## Step:  AIC=691.64
## Colmenas1 ~ temperatura + lluvias + poblacion1 + produccion1
## 
##               Df  Sum of Sq        RSS    AIC
## - temperatura  1 1.9838e+10 4.8795e+11 690.84
## - lluvias      1 2.4236e+10 4.9235e+11 691.10
## <none>                      4.6812e+11 691.64
## + plaguicidas  1 1.0565e+10 4.5755e+11 692.97
## - produccion1  1 1.1586e+11 5.8398e+11 696.05
## - poblacion1   1 2.2836e+11 6.9648e+11 701.16
## 
## Step:  AIC=690.84
## Colmenas1 ~ lluvias + poblacion1 + produccion1
## 
##               Df  Sum of Sq        RSS    AIC
## - lluvias      1 2.3682e+10 5.1164e+11 690.21
## <none>                      4.8795e+11 690.84
## + temperatura  1 1.9838e+10 4.6812e+11 691.64
## + plaguicidas  1 1.5741e+10 4.7221e+11 691.89
## - produccion1  1 1.7492e+11 6.6288e+11 697.72
## - poblacion1   1 2.2167e+11 7.0962e+11 699.70
## 
## Step:  AIC=690.21
## Colmenas1 ~ poblacion1 + produccion1
## 
##               Df  Sum of Sq        RSS    AIC
## <none>                      5.1164e+11 690.21
## + lluvias      1 2.3682e+10 4.8795e+11 690.84
## + temperatura  1 1.9284e+10 4.9235e+11 691.10
## + plaguicidas  1 1.6276e+10 4.9536e+11 691.28
## - produccion1  1 1.8835e+11 6.9999e+11 697.30
## - poblacion1   1 2.3717e+11 7.4881e+11 699.26
## 
## Call:
## lm(formula = Colmenas1 ~ poblacion1 + produccion1)
## 
## Coefficients:
## (Intercept)   poblacion1  produccion1  
##   4.548e+06   -3.065e+04    3.735e-03

El mejor modelo de regresión lineal múltiple

modelo3 <- lm(formula = Colmenas1 ~ poblacion1 + produccion1)
summary(modelo3)
## 
## Call:
## lm(formula = Colmenas1 ~ poblacion1 + produccion1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -259440  -97705  -18575   57079  333796 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.548e+06  7.460e+05   6.096 1.92e-06 ***
## poblacion1  -3.065e+04  8.828e+03  -3.472  0.00182 ** 
## produccion1  3.735e-03  1.207e-03   3.094  0.00468 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 140300 on 26 degrees of freedom
## Multiple R-squared:  0.3418, Adjusted R-squared:  0.2912 
## F-statistic: 6.751 on 2 and 26 DF,  p-value: 0.00435

Intervalo de confianza

confint(lm(formula = Colmenas1 ~ poblacion1 + produccion1))
##                     2.5 %        97.5 %
## (Intercept)  3.014254e+06  6.080982e+06
## poblacion1  -4.879284e+04 -1.250133e+04
## produccion1  1.253392e-03  6.216405e-03
plot1 <- ggplot(data = datos1, aes(poblacion1, modelo3$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
plot2 <- ggplot(data = datos1, aes(produccion1, modelo3$residuals)) +
    geom_point() + geom_smooth(color = "firebrick") + geom_hline(yintercept = 0) +
    theme_bw()
grid.arrange(plot1, plot2)
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Estas gráficas permiten validar mediante diagramas de dispersión entre la variable dependiente y cada uno de los predictores o con diagramas de dispersión entre cada uno de los predictores y los residuos del modelo. En estas gráficas se puede observar que el número de colmenas no tiene una relación completamente lineal con la población, esto es debido a que no necesariamente habrá menos colmenas si hay más gente, igual sucede con la producción de miel, que si bien, tiene más relación con el número de colmenas, no es una relación 100% dependiente, ya que existen diversos factores más que ponen en riesgo la producción, por ejemplo: las lluvias, el aumento de temperaturas, el uso de plaguicidas en la cosechas, etc.

Distribución de los datos

qqnorm(modelo3$residuals)
qqline(modelo3$residuals)

Ahora bien, observando esta gráfica se puede observar que los residuos del modelo 3 y el modelo 3 provienen de la misma distribución. Bajo esta premisa se puede inferir en qued los datos son normales porque se encuentran cercanos a la media, sin embargo, existen algunos que están más separados de lo normal.

Prueba de shapiro para verificar que los datos sean normales

shapiro.test(modelo3$residuals)
## 
##  Shapiro-Wilk normality test
## 
## data:  modelo3$residuals
## W = 0.95734, p-value = 0.2822

Con este test de shapiro se puede observar que los datos son normales puesto que se supera el 0.05 y esto nos permite continuar con la hipotesis.

Probando el modelo de regresión lineal múltiple

bptest(modelo3)
## 
##  studentized Breusch-Pagan test
## 
## data:  modelo3
## BP = 1.4365, df = 2, p-value = 0.4876

Identificación de valores atípicos

datos1$studentized_residual <- rstudent(modelo3)
ggplot(data = datos1, aes(x = predict(modelo3), y = abs(studentized_residual))) +
geom_hline(yintercept = 3, color = "grey", linetype = "dashed") +

geom_point(aes(color = ifelse(abs(studentized_residual) > 3, 'red', 'black'))) +
scale_color_identity() +
labs(title = "Distribución de los residuos studentized",
     x = "predicción modelo") + 
theme_bw() + theme(plot.title = element_text(hjust = 0.5))

Por útlimo en esta tabla se muestra la distribución de los datos utilizando la predicción del modelo, y si bien, los datos se encuentrar dispersos entre sí, se puede observar que ninguno de estos esá demasiado separado para considerarse atípico. Este análisis nos ayuda a entender que no solo la producción y la población son influyentes en el número de colmenas.

Serie de tiempo

Descomposicion de la serie de tiempo de exportación de miel.

ciclo anual de las abejas

exportTs.desc <- decompose(exportTs) 
plot(exportTs.desc)

En la descomposición podemos ver claramente como se forman los ciclos en la exportación, pues esta depende de la producción de miel, la cual lleva un proceso estacional.

Cómo se comporta la exportación de miel durante el año?

boxplot(exportTs~cycle(exportTs))

Se puede visualizar como en los meses de verano es cuando se obtiene más ganacia de la exportación de miel. Para ver si la producción se correlaciona con la exportación, se creará una serie de tiempo incluyendo a ambas variable, así podrémos ver el contraste de ellas a travez del tiempo.

expByYear <- exp %>%
  group_by(YEAR) %>%
  summarise(sum_precip = sum(SE32403))

producNum <- as.double(unlist(produccion[5:30, c(2)]))
dt <-data.frame(expByYear$YEAR,expByYear[ , c(2)], producNum)


obj1 <- xyplot(dt$sum_precip ~ dt$expByYear.YEAR, dt, type = "l", lwd=2, ylab="Exportación", xlab="")
obj2 <- xyplot(dt$producNum ~  dt$expByYear.YEAR, dt, type = "l" , lwd=2, ylab="Producción", xlab="", col="pink")


doubleYScale(obj1, obj2, add.ylab2 = TRUE) 

En la gráfica podemos notar que las dos variables siguen una tendencia creciente similar, sin embargo hay algunos picos de exportación que sobresalen aunque no haya un aumento considerable en la producción, esto indica que la exportación esta inlfuenciada por otros factores los cuales podrían ser una mejor calidad de la miel que aumente su valor o debido a nuevos tratados de comercio. México es productor de una de las mieles de mejor calidad y más cotizadas en el mundo, por lo que desde hace más de cinco décadas la ha comercializado en el mercado internacional. Según lo publicado en Agromarketing (2016) el aumento de los ingresos por las exportaciones, se debe principalmente al valor que se le da a la miel producida en México, ya que está, se encuentra bien cotizada en el mundo, y goza de reconocimiento a nivel mundial. Además, cada vez se le encuentran mayores propiedades médicas y nutricionales.

Predicción de la exportación de miel utilizando SARIMA

verificamos que no haya datos faltantes:

anyNA(exportTs)
## [1] FALSE

No hay datos daltantes, por lo que podemos continuar.

División de los datos para validación cruzada

test_exp <- tail(exportTs, 63) #20% para pruebas

train_exp <- head(exportTs, length(exportTs)-63) #80% para entrenamiento

Realizamos la prueba dickey-fuller que sirve para, en funcion del valor de P, determinar si los datos SON o NO SON estacionarios.

adf.test(exportTs)
## Warning in adf.test(exportTs): p-value smaller than printed p-value
## 
##  Augmented Dickey-Fuller Test
## 
## data:  exportTs
## Dickey-Fuller = -9.3726, Lag order = 6, p-value = 0.01
## alternative hypothesis: stationary

Analizando la serie de tiempo con un modelo SARIMA

export_auto <- auto.arima(y= train_exp, seasonal = T)
summary(export_auto)
## Series: train_exp 
## ARIMA(2,0,1)(0,1,2)[12] with drift 
## 
## Coefficients:
##           ar1     ar2     ma1     sma1     sma2    drift
##       -0.1546  0.3834  0.9063  -0.5887  -0.1313  22.9866
## s.e.   0.0953  0.0822  0.0583   0.0757   0.0690   6.9814
## 
## sigma^2 estimated as 2349348:  log likelihood=-1979.86
## AIC=3973.72   AICc=3974.23   BIC=3997.66
## 
## Training set error measures:
##                     ME     RMSE     MAE       MPE     MAPE     MASE        ACF1
## Training set -22.62726 1473.657 1029.35 -15.94312 32.02199 0.659121 0.005883838

Visualizando las predicciones del modelo

train_exp %>%
  autoplot(series="actual") +
  autolayer(export_auto$fitted, series ="SARIMA auto") +
  theme_minimal()

Vemos que el modelo se ajusta bastante bien al modelo, por lo que sería seguro usarlo para predicciones futuras.

Ahora veamos una predicción de 10 años al futuro:

library(forecast)
f1 <- forecast(export_auto, h= 10)
autoplot(f1) +xlab("Tiempo") 

Como se puede notar sigue el mismo patron que de los años anteriores, proponiendo que las exportaciones de miel en México seguirán en aumento.

Conclusión

Después de realizar el analísis se pudieron identificar multiples factores que influyen en la desaparición de las abejas y de otros polinizadores. Los cuales tienen el origen en la vida cotidiana del humano ya que se derivan de su necesidad de consumir alimentos, en la reproducción de la especie, en la vida que llevan la mayoría de estos.

También se pudo observar que no solo el uso de plaguicidas, la densidad poblacional y la producción de miel están 100% relacionadas con el número de colmenas de abejas, esto se debe a que también influyen otros factores, como las temperaturas altas, lluvias, etc. Los que si se debe dejar claro es que la producción y la exportación de la miel están muy relacionadas y esto puede tomarse como algo un poco obvio, puesto que, a mayor cantidad de producción, mayor será la cantidad que se exporte de esta.

Conclusión personal.

En lo personal, después de realizar el anterior análisis he podido llegar a la conclusión de que existen diversas causas detrás de la creciente amenaza de la extinción de las abejas, lo cual es preocupante ya que dicha especie es imprescindible para nuestro ecosistema y para nosotros mismos, puesto que las abejas y otras especies dentro del grupo de polinizadores son los responsables de la gran mayoría de nuestra alimentación. Estas causales son distintas, desde el uso excesivo de plaguicidas, cambio climático, lluvias y las actividades humanas. Además de causar daños directos como los anteriormente mencionados, afecta fuertemente a la economía del país y de los miles de apicultores en él.

Por otro lado, con respecto al objetivo planteado, he llegado a la conclusión que las colmenas de abejas están altamente relacionadas con la producción de miel, esto quiere decir que, mientras la situación actual de las abejas continue de la misma manera, disminuyendo, la producción lo hará de igual manera, y esto es muy sencillo de entender, ya que al ser las abejas las productoras de la miel, al disminuir su cantidad, no habrá el mismo número de abejas para la producción, por lo que la producción se verá afectada.

Bibliografía

Descarga de código y datos

  • Código
xfun::embed_file("apicultura.Rmd")

Download apicultura.Rmd

  • Datos
xfun::embed_file("Colmenas.csv")

Download Colmenas.csv

xfun::embed_file("deforestacion.csv")

Download deforestacion.csv

xfun::embed_file("lluvias.csv")

Download lluvias.csv

xfun::embed_file("plaguicidas.xlsx")

Download plaguicidas.xlsx

xfun::embed_file("poblacion.csv")

Download poblacion.csv

xfun::embed_file("perdida.csv")

Download perdida.csv

xfun::embed_file("tempmedia.csv")

Download tempmedia.csv

xfun::embed_file("produccion.csv")

Download produccion.csv

xfun::embed_file("expmiel_mexico.csv")

Download expmiel_mexico.csv