u2a2

Jesus Urrego, Christopher Kuraica, Alexa Mavely Sanchez

28/04/2021


library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
library(hpackedbubble)
## 
## Attaching package: 'hpackedbubble'
## The following object is masked from 'package:datasets':
## 
##     CO2
setwd("~/Estadistica aplicada/u2a2") # folder de trabajo
xfun::embed_file("u2a2.Rmd")

Download u2a2.Rmd

xfun::embed_file("DatosTrigo.xlsx")

Download DatosTrigo.xlsx

Introduccion

El trigo es uno de los alimentos básicos en el mundo y su demanda aumenta día con día por sus aportaciones nutricionales como vitaminas, proteínas, minerales y aminoácidos esenciales (Shewry, 2007). El incremento del consumo de este cereal se ha dado en los últimos años en función del aumento de población. (Hussain et al., 2010). El trigo fue introducido por los españoles a México en 1529 y desde entonces forma parte importante de la dieta de la población mexicana, por la disponibilidad y el costo que lo hace accesible a gran parte del consumidor en diferentes formas, tortilla y otros (Shewry, 2009). En México el trigo ocupa el segundo lugar en la producción de cereales, con alrededor del 14% de la producción nacional. En el 2009 el valor generando por la producción de este grano representó el 2.46% del PIB primario y el 0.10% del PIB Total (Financiera Rural, 2010). La superficie sembrada de trigo en México no tiene una fuerte dependencia de los factores climáticos, ya que un 80.5% cuenta con riego tecnificado, con el 94 % de la producción de este cereal. Es sembrado durante en el ciclo otoño-invierno, debido a los requerimientos de mayor humedad y temperatura más frías, condiciones que ocurren los estados del noroeste y norte del país (Financiera Rural, 2010).

Hipotesis

La hipótesis nula propone que hay un “paralelismo” entre el trigo cosechado y el valor de este. Esto quiere decir, por ejemplo, que si un kilo de trigo vale diez pesos, entonces dos kilos de trigo deberían valer veinte pesos. Quizás sea un poco exagerado exponerlo de esta manera, pero veamos qué tan acertado o no es afirmar esto:

library("readxl")
library(pacman)
## Warning: package 'pacman' was built under R version 4.0.5
p_load("MASS", "ggplot2")
datosTrigo <- read_excel("DatosTrigo.xlsx")
print(datosTrigo)
## # A tibble: 17 x 3
##     anho  proTon   valCos
##    <dbl>   <dbl>    <dbl>
##  1  2003 393005   550207 
##  2  2004  41649    58309.
##  3  2005 148182   237091.
##  4  2006 366240.  585984.
##  5  2007 375446.  675803.
##  6  2008 310361. 1272480.
##  7  2009 322090.  998479.
##  8  2010 324051.  874936.
##  9  2011 305013. 1062970.
## 10  2012 426448. 1492568.
## 11  2013 492517. 1767966.
## 12  2014 427145. 1368916.
## 13  2015 328021. 1354103.
## 14  2016 427034. 1478007.
## 15  2017 363240. 1407915.
## 16  2018 275479. 1014098.
## 17  2019 309143. 1113700.

Diagrama de dispersión para la cantidad cosechada de trigo y el valor de la cosecha

ggplot(data = datosTrigo, aes(x=proTon, y = valCos)) +
  labs(x = "\nCantidad cosechada (toneladas)", y = "Valor de la cosecha\n") +
  geom_point(colour="red4") +
  ggtitle("\nDiagrama de dispersion de cosechas") +
  theme_bw() +
  theme(plot.title = element_text(hjust = 0.5))

El diagrama de dispersión parece que no indica una posible relación lineal positiva entre ambas variables. Esto se debe a que se puede observar ya de inicio una gran dispersión entre los datos. Se vera que está pasando en las siguientes graficas:

Analisis de normalidad

Hisogramas del trigo cosechado (toneladas) y el valor de la cosecha

par (mfrow = c(1,2))
hist(datosTrigo$proTon, breaks = 17, main = "", xlab = "Cosechado (toneladas)", border="darkred")
hist(datosTrigo$valCos, breaks = 17, main = "", xlab = "Valor de la cosecha", border="blue")

Grafico cuantilico

par(mfrow = c(1,2))
qqnorm(datosTrigo$proTon, main = "Cosechado", col = "darkred")
qqline(datosTrigo$proTon)
qqnorm(datosTrigo$valCos, main = "Valor de la cosecha", col = "darkred")
qqline(datosTrigo$valCos)

Al observar el resultado del analisís cuantilicos, nos damos cuenta que algo esta sucediendo en la cantidad del producto cosechado, por lo que muy probablemente no sean normales. Continuemos…

Prueba (test) de hipotesis para el analisis de normalidad

shapiro.test(datosTrigo$proTon)
## 
##  Shapiro-Wilk normality test
## 
## data:  datosTrigo$proTon
## W = 0.88214, p-value = 0.03445

dado que el valor de P es menor a 0.05 (5%) los datos NO son normales

shapiro.test(datosTrigo$valCos)
## 
##  Shapiro-Wilk normality test
## 
## data:  datosTrigo$valCos
## W = 0.95861, p-value = 0.6055

dado que el valor de P es mayor a 0.05 (5%) los datos son normales

Estos análisis de normalidad demuestran que efectivamente algo esté sucediendo con el trigo cosechado, ya que el resultado fue menor al 0.05 en el p-value. Por lo tanto, se hará un ajuste a escala logarítmica de base y se volverá a hacer el análisis de normalidad.

par (mfrow = c(1,2))
hist(datosTrigo$proTon, breaks = 17, main = "", xlab = " Log10 (Toneladas producidas)", border="blue")
qqnorm(log10(datosTrigo$proTon), main = "", col = "blue")
qqline(log10(datosTrigo$proTon))

shapiro.test(log10(datosTrigo$proTon))
## 
##  Shapiro-Wilk normality test
## 
## data:  log10(datosTrigo$proTon)
## W = 0.63379, p-value = 2.253e-05

Ya obtuvimos los datos ajustados a escala logarítmica base 10, sin embargo, el resultado sigue sin ser normal. Incluso en está ocasión el p-value es mucho menor (0.005%). Por lo tanto la hipótesis nula no se aprueba para el caso.

Conclusión

Analizando los datos y graficas anteriores, llegamos a la conclusión de que el resultado que hay en la discrepancia es muy evidente dada la nula normalidad en el caso de las cantidades cosechadas de trigo. Esto se puede deber, quizás, a la crisis económica que afecto a nivel mundial el precio de los alimentos y cultivos en 2008, siendo el trigo uno de los más afectados. A continuación se podrá observar cual fue el rendimiento entre lo cosechado y el valor obtenido para evidenciar mejor esto:

datosTrigo <- read_excel("DatosTrigoRendimiento.xlsx")
print(datosTrigo)
## # A tibble: 17 x 4
##     anho  proTon   valCos Rendimiento
##    <dbl>   <dbl>    <dbl> <chr>      
##  1  2003 393005   550207  29%        
##  2  2004  41649    58309. 29%        
##  3  2005 148182   237091. 38%        
##  4  2006 366240.  585984. 38%        
##  5  2007 375446.  675803. 44%        
##  6  2008 310361. 1272480. 76%        
##  7  2009 322090.  998479. 68%        
##  8  2010 324051.  874936. 63%        
##  9  2011 305013. 1062970. 71%        
## 10  2012 426448. 1492568. 71%        
## 11  2013 492517. 1767966. 72%        
## 12  2014 427145. 1368916. 69%        
## 13  2015 328021. 1354103. 76%        
## 14  2016 427034. 1478007. 71%        
## 15  2017 363240. 1407915. 74%        
## 16  2018 275479. 1014098. 73%        
## 17  2019 309143. 1113700. 72%
xfun::embed_file("DatosTrigoRendimiento.xlsx")

Download DatosTrigoRendimiento.xlsx

Otro dato curioso que se observa aquí es las pocas cosechas del 2004, las cuales se deben a una sequía que asolo a la región en ese año y que afecto a la producción siendo tan poca como se observa. Sin embargo, en ese año el rendimiento fue igual al del año pasado donde hubo una producción normal (29%).

Por lo tanto, quizás la falta de normalidad se deba a estos hechos críticos en la historia que impactan de manera tan significativa en los datos. Porque si se tomara solo en cuenta 2003 y 2004 la hipótesis se podría aceptar dado que el rendimiento se conserva. Pero bueno, la realidad es otra.