u2a3

Jesus Urrego, Christopher Kuraica, Alexa Mavely Sanchez

05/05/2021

Introduccion
Regresión lineal multiple
Importar datos
Visualizar tabla de predictores
Visualizar histogramas
Matriz de correlación multiple
Generando el modelo

library(readr) #para leer datos
library(DT) # tablas interactivas
library(prettydoc) #documentos con mejor formato
library(hpackedbubble)

## 
## Attaching package: 'hpackedbubble'

## The following object is masked from 'package:datasets':
## 
##     CO2

setwd("~/Estadistica aplicada/u2a3") # folder de trabajo

xfun::embed_file("u2a3.Rmd")

Download u2a3.Rmd

xfun::embed_file("DatosTrigo2.xlsx")

Download DatosTrigo2.xlsx

Introduccion

El trigo es uno de los alimentos básicos en el mundo y su demanda aumenta día con día por sus aportaciones nutricionales como vitaminas, proteínas, minerales y aminoácidos esenciales (Shewry, 2007). El incremento del consumo de este cereal se ha dado en los últimos años en función del aumento de población. (Hussain et al., 2010). El trigo fue introducido por los españoles a México en 1529 y desde entonces forma parte importante de la dieta de la población mexicana, por la disponibilidad y el costo que lo hace accesible a gran parte del consumidor en diferentes formas, tortilla y otros (Shewry, 2009).

En México el trigo ocupa el segundo lugar en la producción de cereales, con alrededor del 14% de la producción nacional. En el 2009 el valor generando por la producción de este grano representó el 2.46% del PIB primario y el 0.10% del PIB Total (Financiera Rural, 2010). La superficie sembrada de trigo en México no tiene una fuerte dependencia de los factores climáticos, ya que un 80.5% cuenta con riego tecnificado, con el 94 % de la producción de este cereal. Es sembrado durante en el ciclo otoño-invierno, debido a los requerimientos de mayor humedad y temperatura más frías, condiciones que ocurren los estados del noroeste y norte del país (Financiera Rural, 2010).

Regresión lineal multiple

La regresión lineal múltiple permite generar un modelo lineal en el que el valor de la variable dependiente o respuesta (Y) se determina a partir de un conjunto de variables independientes llamadas predictores (X1, X2, X3…). Es una extensión de la regresión lineal simple, por lo que es fundamental comprender esta última.

Los modelos de regresión múltiple pueden emplearse para predecir el valor de la variable dependiente o para evaluar la influencia que tienen los predictores sobre ella (esto último se debe que analizar con cautela para no malinterpretar causa-efecto).

Los modelos lineales múltiples siguen la siguiente ecuación:

\[ Y_{i}=(\beta_{0}+\beta_{1}X_{1i}+\beta_{2}X_{2i}+\cdots+\beta_{n}X_{ni})+e_{i} \]

β0 es la ordenada en el origen, el valor de la variable dependiente Y cuando todos los predictores son cero.
βi es el efecto promedio que tiene el incremento en una unidad de la variable predictora Xi sobre la variable dependiente Y, manteniéndose constantes el resto de variables. Se conocen como coeficientes parciales de regresión.
ei es el residuo o error, la diferencia entre el valor observado y el estimado por el modelo.

En este ejercicio estadístico se estarán tomando en cuenta los datos sobre cosechas de trigo desde el 2009 hasta el 2019 en el municipio de Cajeme. Donde se analizarán los valores registrados de estos cultivos relacionados a: la superficie cultivada, la cosecha obtenida, la cosecha siniestrada (que se haya perdido por algún motivo) y el valor de esta cosecha.

Importar datos

library("readxl")
library(pacman)
p_load(gplots, psych, GGally, readxl, dplyr, ggplot2, data.table, scale, plotly, tidyverse, modelr, datos)

datosTrigo <- read_excel("DatosTrigo2.xlsx")
print(datosTrigo)

## # A tibble: 17 x 5
##     Anho Sembrado Cosechado Siniestrado    Valor
##    <dbl>    <dbl>     <dbl>       <dbl>    <dbl>
##  1  2003   78681     78601           80  550207 
##  2  2004    7131      7131            0   58309.
##  3  2005   27255     27255            0  237091.
##  4  2006   57971     57971            0  585984.
##  5  2007   58492     58492            0  675803.
##  6  2008   49196     49196            0 1272480.
##  7  2009   56036     56036            0  998479.
##  8  2010   50111     50083           28  874936.
##  9  2011   48647     48267          380 1062970.
## 10  2012   58645     58645            0 1492568.
## 11  2013   68044     68044            0 1767966.
## 12  2014   68373     68373            0 1368916.
## 13  2015   64239.    64239.           0 1354103.
## 14  2016   64117     64117            0 1478007.
## 15  2017   56854     56854            0 1407915.
## 16  2018   42061     42061            0 1014098.
## 17  2019   43176     43176            0 1113700.

Visualizar tabla de predictores

Superficie <- datosTrigo$Sembrado
Cosecha <- datosTrigo$Cosechado
Siniestros <- datosTrigo$Siniestrado
Valor <- datosTrigo$Valor
datos <- data.table(Superficie, Cosecha, Siniestros, Valor)
round( cor( x = datos, method = "pearson"), 3)

##            Superficie Cosecha Siniestros  Valor
## Superficie      1.000   1.000      0.015  0.603
## Cosecha         1.000   1.000      0.010  0.603
## Siniestros      0.015   0.010      1.000 -0.035
## Valor           0.603   0.603     -0.035  1.000

Visualizar histogramas

multi.hist(x = datos, dcol = c("blue", "red"), dlty = c("dotted", "solid"), main = "")

Matriz de correlación multiple

ggpairs(datos, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")

Las variables presentan una mejor correlación lineal con la cosecha son:

Superficie: con una correlación de 1
Valor: con una correlación de 0.603

Y claramente como los siniestros son algo indeseado la correlación es muy baja con la cosecha (0.010) y negativa con respecto al valor (-0.035)

Generando el modelo

modelo <- lm(Valor ~ Superficie + Cosecha + Siniestros, data = datos )
summary(modelo)

## 
## Call:
## lm(formula = Valor ~ Superficie + Cosecha + Siniestros, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -892897 -192970  137218  263181  486740 
## 
## Coefficients: (1 not defined because of singularities)
##             Estimate Std. Error t value Pr(>|t|)
## (Intercept) 130704.2   331079.0   0.395    0.699
## Superficie    -207.8     1079.6  -0.192    0.850
## Cosecha        224.7     1079.7   0.208    0.838
## Siniestros        NA         NA      NA       NA
## 
## Residual standard error: 400400 on 14 degrees of freedom
## Multiple R-squared:  0.3654, Adjusted R-squared:  0.2748 
## F-statistic: 4.031 on 2 and 14 DF,  p-value: 0.04144