Introduccion

En el estado de Sonora la uva de mesa es el cultivo con mayor valor económico, con un valor aproximado de 200 millones de dólares, con una producción de 7 millones de jornales en promedio al año (Chávez, 2016).

Ultimadamente la sequia que se ha vivido en el estado de sonora es muy fuerte y ha estado afectando a la produccion de varios cultivos ya que existe una ezcases de agua para riego y con el aumento de temperatura termina secando el cultivo y dañando el ecosistema por la falta de humedad.

Por ello se analizará la produccion de uva con la sequia medida en % de area afectada por sequias obtenido de la SMN utilizando la estadistica de los datos.

Produccion de uva

De acuerdo con datos del Servicio de Información Agroalimentaria y Pesquera (SIAP) en México hay 24 mil hectáreas de viñedos, en las que se producen cerca de 375 mil toneladas de uva de mesa al año. Los principales estados productores son Sonora, con 319 mil; Zacatecas, con 43 mil, y Aguascalientes, con 5,475 toneladas. En los viñedos mexicanos se cosechan seis de cada mil toneladas de uva para mesa disponibles en el mundo.

La produccion de la uva en el estado de Sonora

El estado de Sonora (Hermosillo y Caborca) representa el 95% del total de la producción nacional de uva de mesa y actualmente es capaz de producir cerca de 20 millones de cajas de 8.2 kilogramos, que en su gran mayoría se exportan a Estados Unidos, Canadá, Europa, Sudamérica y Asia, entre otros, así como al mercado nacional, con la ventaja competitiva de producir cosecha más temprana que California (EE.UU.). Esto ha motivado el establecimiento de nuevos viñedos en la región y el uso de tecnología que ayude a forzar a las vides a obtener cosechas más precoces, inocuas y sostenibles (Secretaria de Agricultura, Ganaderia, Recursos hidraulicos, Pesca y Acuacultura, 2018).

Objetivo del trabajo

  1. ¿Cuanto % de area en los suelos por sequias es afectado en el estado de Sonora?

  2. ¿La produccion de uva se ha mantenido constante,con variaciones, crecimiento o decrecimiento?

  3. ¿Existe una relacion entre la produccion y las sequias?

Principales causas de la sequia

  • Ausencia o escasez de lluvias, sobre todo, durante las épocas que le corresponden, por lo que el agua es escasa.

  • Las actividades humanas como la sobreexplotación de tierras agrícolas, el riego excesivo o la deforestación, fomentan la erosión y afectan negativamente a la capacidad del suelo para almacenar y retener el agua. Estos efectos se desencadenan sobre todo a nivel local.

  • Actividades que fomentan el cambio climático y sobrecalentamiento global, tanto las actividades humanas como naturales. Esto provocará aumento de precipitaciones con inundaciones en determinados lugares y períodos de sequía y calentamiento, en otros. Son, por tanto, efectos a nivel global.

  • La utilización en agricultura de productos tóxicos como el amoníaco, aumenta el riesgo de desertización.

Consecuencias de la sequia

  • Pérdida de producciones agrícolas y tierras para el ganado, con la consiguiente pérdida de ingresos y alimentos. Además, al haber escasa producción de determinados alimentos, estos suben de precio por la ley de la oferta y la demanda.

  • Malnutrición, deshidratación y enfermedades.

  • Hambruna debida a la escasez de alimentos.

  • Migración de seres humanos y especies animales.

  • Daños al hábitat.

  • Pérdida de la biodiversidad o lo que es lo mismo, la reducción e incluso extinción de especies vegetales y animales.

  • Tormentas de polvo, por la desertificación y erosión.

  • Inestabilidad mundial, que puede desembocar en conflictos y guerras por los recursos naturales.

  • Menor oferta de alimentos en el mercado.

Metodología

Regresion lineal

La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de sistemas complejos o a analizar datos experimentales, financieros y biológicos.

Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo describe la relación entre una variable dependiente y (también conocida como la respuesta) como una función de una o varias variables independientes Xi (denominadas predictores). La ecuación general correspondiente a un modelo de regresión lineal es:

\[ Y=β0+∑ βiXi+ϵi \]

donde β representa las estimaciones de parámetros lineales que se deben calcular y ϵ representa los términos de error

Series temporales

Una serie temporal se define como una colección de observaciones de una variable recogidas secuencialmente en el tiempo. Estas observaciones se suelen recoger en instantes de tiempo equiespaciados. Si los datos se recogen en instantes temporales de forma continua, se debe o bien digitalizar la serie, es decir, recoger sólo los valores en instantes de tiempo equiespaciados, o bien acumular los valores sobre intervalos de tiempo (Parra, 2019).

En el tratamiento de series temporales que vamos a abordar, únicamente se considerará la información presente y pasada de la variable investigada. Si la variable investigada es \(Y\) y se dispone de los valores que toma dicha variable desde el momento 1 hasta \(T\) el conjunto de información disponible vendrá dado por:

\[\ Y_{1}, Y_{2}, Y_{3}, ... Y_{T-1}, Y_{T}\]

Los índices estandarizados de sequía (SI), evalúan la diferencia que existe entre los valores de la variable analizada y la condición considerada como “normal” en una muestra normalizada. Así, los valores numéricos del índice SI representan anomalías de la variable de interés respecto a la media.

Todos estos índices, univariados y multivariados, se determinan de forma mensual para todo el territorio nacional y con diferentes escalas temporales (1, 3, 6 ,9 y 12 meses).

χ2 de Pearson (test de independencia)

El test χ2 de independencia, también conocido como χ2 de Pearson se emplea para estudiar si existe asociación entre dos variables categóricas, es decir, si las proporciones de una variable son diferentes dependiendo del valor que adquiera la otra variable, cuando los datos son independientes. El test de independencia cuantifica y sumariza cómo de distinto es el número de eventos observados en cada nivel con respecto al número esperado acorde con Ho. Esto permite identificar si la desviación total es mayor que la que cabría esperar simplemente por azar.

Hipótesis

  • H0 : Las variables son independientes por lo que una variable no varía entre los distintos niveles de la otra variable.

  • Ha : Las variables son dependientes, una variable varía entre los distintos niveles de la otra variable.

Resultados y discusión

Sequia <- read_excel("SequiaSonora.xlsx")
View(Sequia)

Visualizar tabla en series de tiempo del % de area afectada por sequias

Visualizar la grafia por series de tiempo de la sequia en Sonora

 library(forecast)
## Registered S3 method overwritten by 'quantmod':
##   method            from
##   as.zoo.data.frame zoo
plot(Sequia.ts, col = "brown", main = "% Area afecta por sequia en Sonora", ylab = "% Area afectada", xlab ="Tiempo", lwd=1, type="l", pch=10)   

Como se puede observar las mediones del monitor de sequias en Mexico (MSN) toma datos por mes y se utilizo la funcion de series de tiempo para ajustarlo a 1 año los 12 meses como frecuencias.

Las series de tiempo permiten conocer la variación temporal de las distintas variables e índices de sequía en una región predeterminada (considerando división política o hidrografía).

En la grafica podemos observar que la mayor parte entre los nivelesD1 y D2 se encuentra en ocilaciones muy constantes de esta serie temporal por lo que se puede deducir que en todos los años los % de area afecta por sequia se encuentro la moyor parte entre D1 Y D2.

Se observa que en la grafica D4 ocurrio una sequia del nivel mas alto, es decir una sequia excepcional en la cual tuvo tiempos que llegaron hasta mas de 50% de area afecta siendo este indicador muy fuerte para nuestra agricultura en el caso de la Uva

Sequia.ts <- ts(Sequia$D4, start=c(2010,1), frequency = 12)
plot(Sequia.ts, col = "brown", main = "Sequia Excepcional en Sonora", ylab = "% Area afectada", xlab ="Tiempo", lwd=1, type="l", pch=10)

En esta grafica mas detallada observamos que en el año 2011 se registro una sequia excepcional de un 81% y en el año 2018 se registro un poco menos del 80% pero mas del 70%, y en las fechas del 2020 por octubre a 2021 se registro la sequia mas fuerte que ha tenido Sonora de casi al 100%.

Tabla de la Uva en sonora desde 2010 a 2019

Uva_agricultura <- read_excel("Uva_agricultura.xlsx")

datatable(Uva_agricultura)

En esta tabla observamos que el SPI es la precipitacion media anual, la sembrada esta por hectarias, la cosesha en hectarias, la produccion en toneladas, el precio del mercado nacional esta en $/ton, el valor de la produccion que viene siendo el producto de la produccion con el precio de mercado en miles de pesos y el indicador de precipitacion y humedad en el suelo medido en % area afecta media anual tomando en cuenta que las cosechas empiezan en mayo y terminan en agosto.

Año <- Uva_agricultura$Año
Valor_mdp <- Uva_agricultura$`Valor de produccion (mdp)`
Precipitacion <- Uva_agricultura$SPI
Precio_mercado <- Uva_agricultura$`mercado ($/ton)`
MDIa <- Uva_agricultura$MDIa
Produccion <- Uva_agricultura$`Produccion (ton)`
Cosecha <- Uva_agricultura$Cosecha
Sembrada <- Uva_agricultura$Sembrada
datos <- data.table(Valor_mdp, Precio_mercado, Precipitacion, MDIa, Produccion, Cosecha, Sembrada)

Grafico de dispersion para la produccion de uva a traves del tiempo

x  <- ggplot(data = datos) + 
  geom_point(aes(Año, Produccion)) + 
  geom_line(aes(Año, Produccion)) +
 xlab("Años") +
  ylab("Produccion (ton)") +
  labs(colour="") +
  ggtitle("producción de uva (Sonora)")+
  scale_y_continuous(labels = comma)
ggplotly(x)

Se observa que la produccion se comporta como una serie temporal donde existe variaciones en puntos maximos y minimos cada año por lo que posiblemente a priori veamos una relacion con las sequias y la produccion de uva. Ademas se observa como en el 2011 disminuyo la produccion en un 7.47% respecto al año anterior y como se recuerda en el 2011 ocurrio una sequia de las mas fuertes.

qqnorm(Produccion)
qqline(Produccion)

Observamos en esta grafica de quantiles que la produccion esta en constante crecimiento por lo que la prediccion indica que en el 2020 y 2021 seguira con esta tendencia

Grafica de dispersion del valor del de produccion de la uva atraves de los años

x  <- ggplot(data = datos) + 
  geom_line(aes(Año, Valor_mdp)) + 
 xlab("Año") +
  ylab("Valor de la producción (mdp)") +
  ggtitle("Relación entre el tiempo con el valor de producción (Sonora)")+
  scale_y_continuous(labels = comma)
ggplotly(x)
qqnorm(log10(Valor_mdp), main = "Valor de la produccion mdp", col = "blue")
qqline(log10(Valor_mdp))

El valor de la produccion ajustado en un log base 10 se desvia de la recta los valores en X entre menos de 1 y mayores 1 lo cual significa que tenemos 3 datos atipicos.

par (mfrow = c(1,2))
hist(Uva_agricultura$`mercado ($/ton)`, breaks = 10, main = "", xlab = " Log10 (Sequia extrema)", border="blue")
qqnorm(log10(Uva_agricultura$`mercado ($/ton)`), main = "", col = "blue")
qqline(log10(Uva_agricultura$`mercado ($/ton)`))

Aqui observamos una tabla de frecuencias y un grafico ajustado en un log base 10 donde se describe el precio del mercado de la Uva en $/ton. En el histograma se observa que no existe condiciones para una normalidad y en nuestra linea vemos que tenemos 4 datos fuera de nuestra linea, lo cual significa que hubo 4 eventos que hicieron variar el precio del mercado.

Tabla de correlacion de los 7 predictores

round( cor( x = datos, method = "pearson"), 3)
##                Valor_mdp Precio_mercado Precipitacion   MDIa Produccion Cosecha
## Valor_mdp          1.000          0.921         0.773 -0.178      0.911   0.863
## Precio_mercado     0.921          1.000         0.602  0.068      0.689   0.742
## Precipitacion      0.773          0.602         1.000 -0.095      0.783   0.938
## MDIa              -0.178          0.068        -0.095  1.000     -0.405   0.008
## Produccion         0.911          0.689         0.783 -0.405      1.000   0.833
## Cosecha            0.863          0.742         0.938  0.008      0.833   1.000
## Sembrada           0.847          0.644         0.887 -0.154      0.921   0.948
##                Sembrada
## Valor_mdp         0.847
## Precio_mercado    0.644
## Precipitacion     0.887
## MDIa             -0.154
## Produccion        0.921
## Cosecha           0.948
## Sembrada          1.000

Observamos que la sembrada es dependiente de la siembra y a la vez de el precio del mercado en mdp.

Grafica de normalidad de nuestros predictores

multi.hist(x = datos, dcol = c("blue", "red"), dlty = c("dotted", "solid"),main = "")

Matriz de correlacion entre los 7 predictores

library(GGally)
ggpairs(datos, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Para la seleccion de predictores en funcion de la produccion de uva observamos que las mas correlacionadas son: sembrada y el precio del mercado, pero a la vez estas variables estan relacionadas con otras independientes, es decir, la sembrada esta muy relacionada con la cosecha por lo que se descarta para nuestra seleccion de predictores

Modelar nuestra regresion lineal multiple

modelo <- lm(Produccion ~ Valor_mdp + Precio_mercado  + Precipitacion + MDIa, data = datos )

summary(modelo)
## 
## Call:
## lm(formula = Produccion ~ Valor_mdp + Precio_mercado + Precipitacion + 
##     MDIa, data = datos)
## 
## Residuals:
##     1     2     3     4     5     6     7     8     9    10 
## -9059  3073  1220  1016 -9636  4228  6510  7942  2794 -8088 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)   
## (Intercept)     1.064e+06  8.215e+05   1.295  0.25189   
## Valor_mdp       5.229e-02  7.720e-03   6.773  0.00107 **
## Precio_mercado -1.605e+01  3.436e+00  -4.671  0.00548 **
## Precipitacion  -1.801e+03  1.927e+03  -0.934  0.39299   
## MDIa            4.038e+01  1.968e+02   0.205  0.84554   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 8757 on 5 degrees of freedom
## Multiple R-squared:  0.9835, Adjusted R-squared:  0.9702 
## F-statistic: 74.32 on 4 and 5 DF,  p-value: 0.0001217

Observamos que nuestra R2 multiple nos da 0.98 y nuestro valor de P-value: 0.012% esto significa que mas predictores estan dependiendo entre una y la otra y eso causa un cesgo en nuestra funcion principal que es la produccion por lo que mas adelante se solicitara un metodo para eliminar predictores que dependen entre si.

Seleccion de predictores para nuestra funcion de produccion de uva

step(object = modelo, direction = "both", trace = 1)
## Start:  AIC=184.62
## Produccion ~ Valor_mdp + Precio_mercado + Precipitacion + MDIa
## 
##                  Df  Sum of Sq        RSS    AIC
## - MDIa            1    3227934  386688857 182.71
## - Precipitacion   1   66961535  450422458 184.23
## <none>                          383460923 184.62
## - Precio_mercado  1 1673416003 2056876925 199.42
## - Valor_mdp       1 3518396521 3901857443 205.82
## 
## Step:  AIC=182.71
## Produccion ~ Valor_mdp + Precio_mercado + Precipitacion
## 
##                  Df  Sum of Sq        RSS    AIC
## - Precipitacion   1   69369997  456058854 182.35
## <none>                          386688857 182.71
## + MDIa            1    3227934  383460923 184.62
## - Precio_mercado  1 3184825613 3571514469 202.94
## - Valor_mdp       1 6846530915 7233219771 209.99
## 
## Step:  AIC=182.36
## Produccion ~ Valor_mdp + Precio_mercado
## 
##                  Df  Sum of Sq        RSS    AIC
## <none>                         4.5606e+08 182.35
## + Precipitacion   1 6.9370e+07 3.8669e+08 182.71
## + MDIa            1 5.6364e+06 4.5042e+08 184.23
## - Precio_mercado  1 3.4739e+09 3.9299e+09 201.89
## - Valor_mdp       1 1.1716e+10 1.2172e+10 213.20
## 
## Call:
## lm(formula = Produccion ~ Valor_mdp + Precio_mercado, data = datos)
## 
## Coefficients:
##    (Intercept)       Valor_mdp  Precio_mercado  
##      2.990e+05       4.754e-02      -1.452e+01

Observamos en el apartado de “coeficients” y vemos como el valor en mdp y el precio del mercado son variables que estan interfiriendo por lo que se eliminan de nuestros predictores.

Modelar con los nuevos predictores la regresion lineal multiple

modelo <- lm(Produccion ~ Precipitacion + MDIa, data = datos )

summary(modelo)
## 
## Call:
## lm(formula = Produccion ~ Precipitacion + MDIa, data = datos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -40495 -18149   -307  20206  36666 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)   
## (Intercept)   -5015986.5  1416628.9  -3.541  0.00946 **
## Precipitacion    12569.6     3338.0   3.766  0.00702 **
## MDIa              -785.6      471.0  -1.668  0.13926   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 30250 on 7 degrees of freedom
## Multiple R-squared:  0.7236, Adjusted R-squared:  0.6447 
## F-statistic: 9.164 on 2 and 7 DF,  p-value: 0.0111

Observamos que la precipitacion y el indicador del % de area afectada de sequia son las causas que hacen variar nuestra produccion de uva. Los resultados nos arroja un valor de R2: 0.72 y una significancia de 11.1% lo cual se acepta nuestra hipotesis nula que la sequia afecta la produccion de Uva.

confint(lm(formula = Produccion ~ Precipitacion + MDIa, data = datos))
##                      2.5 %        97.5 %
## (Intercept)   -8365781.474 -1666191.4918
## Precipitacion     4676.457    20462.6913
## MDIa             -1899.243      328.1137