library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
library(hpackedbubble)##
## Attaching package: 'hpackedbubble'
## The following object is masked from 'package:datasets':
##
## CO2
setwd("~/Estadistica aplicada/u2a3") # folder de trabajoxfun::embed_file("u2a3.Rmd")xfun::embed_file("DatosTrigo2.xlsx")El trigo es uno de los alimentos básicos en el mundo y su demanda aumenta día con día por sus aportaciones nutricionales como vitaminas, proteínas, minerales y aminoácidos esenciales (Shewry, 2007). El incremento del consumo de este cereal se ha dado en los últimos años en función del aumento de población. (Hussain et al., 2010). El trigo fue introducido por los españoles a México en 1529 y desde entonces forma parte importante de la dieta de la población mexicana, por la disponibilidad y el costo que lo hace accesible a gran parte del consumidor en diferentes formas, tortilla y otros (Shewry, 2009).
En México el trigo ocupa el segundo lugar en la producción de cereales, con alrededor del 14% de la producción nacional. En el 2009 el valor generando por la producción de este grano representó el 2.46% del PIB primario y el 0.10% del PIB Total (Financiera Rural, 2010). La superficie sembrada de trigo en México no tiene una fuerte dependencia de los factores climáticos, ya que un 80.5% cuenta con riego tecnificado, con el 94 % de la producción de este cereal. Es sembrado durante en el ciclo otoño-invierno, debido a los requerimientos de mayor humedad y temperatura más frías, condiciones que ocurren los estados del noroeste y norte del país (Financiera Rural, 2010).La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores (X1, X2, X3…). Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última.
Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto).
Los modelos lineales múltiples siguen la siguiente ecuación:
\[ Y_{i}=(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+\cdots+\beta_{n}X_{ni})+e_{i} \]
β0 es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son cero.
βi es el efecto promedio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.
ei es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.
En este ejercicio estadístico se estarán tomando en cuenta los datos sobre cosechas de trigo desde el 2009 hasta el 2019 en el municipio de Cajeme. Donde se analizarán los valores registrados de estos cultivos relacionados a: la superficie cultivada, la cosecha obtenida, la cosecha siniestrada (que se haya perdido por algún motivo) y el valor de esta cosecha.
library("readxl")
library(pacman)
p_load(gplots, psych, GGally, readxl, dplyr, ggplot2, data.table, scale, plotly, tidyverse, modelr, datos)
datosTrigo <- read_excel("DatosTrigo2.xlsx")
print(datosTrigo)## # A tibble: 17 x 5
## Anho Sembrado Cosechado Siniestrado Valor
## <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 2003 78681 78601 80 550207
## 2 2004 7131 7131 0 58309.
## 3 2005 27255 27255 0 237091.
## 4 2006 57971 57971 0 585984.
## 5 2007 58492 58492 0 675803.
## 6 2008 49196 49196 0 1272480.
## 7 2009 56036 56036 0 998479.
## 8 2010 50111 50083 28 874936.
## 9 2011 48647 48267 380 1062970.
## 10 2012 58645 58645 0 1492568.
## 11 2013 68044 68044 0 1767966.
## 12 2014 68373 68373 0 1368916.
## 13 2015 64239. 64239. 0 1354103.
## 14 2016 64117 64117 0 1478007.
## 15 2017 56854 56854 0 1407915.
## 16 2018 42061 42061 0 1014098.
## 17 2019 43176 43176 0 1113700.
Superficie <- datosTrigo$Sembrado
Cosecha <- datosTrigo$Cosechado
Siniestros <- datosTrigo$Siniestrado
Valor <- datosTrigo$Valor
datos <- data.table(Superficie, Cosecha, Siniestros, Valor)
round( cor( x = datos, method = "pearson"), 3)## Superficie Cosecha Siniestros Valor
## Superficie 1.000 1.000 0.015 0.603
## Cosecha 1.000 1.000 0.010 0.603
## Siniestros 0.015 0.010 1.000 -0.035
## Valor 0.603 0.603 -0.035 1.000
multi.hist(x = datos, dcol = c("blue", "red"), dlty = c("dotted", "solid"), main = "")ggpairs(datos, lower = list(continuous = "smooth"),
diag = list(continuous = "barDiag"), axisLabels = "none")Las variables presentan una mejor correlación lineal con la cosecha son:
Superficie: con una correlación de 1
Valor: con una correlación de 0.603
Y claramente como los siniestros son algo indeseado la correlación es muy baja con la cosecha (0.010) y negativa con respecto al valor (-0.035)
modelo <- lm(Valor ~ Superficie + Cosecha + Siniestros, data = datos )
summary(modelo)##
## Call:
## lm(formula = Valor ~ Superficie + Cosecha + Siniestros, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -892897 -192970 137218 263181 486740
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 130704.2 331079.0 0.395 0.699
## Superficie -207.8 1079.6 -0.192 0.850
## Cosecha 224.7 1079.7 0.208 0.838
## Siniestros NA NA NA NA
##
## Residual standard error: 400400 on 14 degrees of freedom
## Multiple R-squared: 0.3654, Adjusted R-squared: 0.2748
## F-statistic: 4.031 on 2 and 14 DF, p-value: 0.04144