U2A4: Regresión lineal multiple.
Introducción
Para el siguiente trabajo hablaremos sobre la regresión lineal múltiple y estaremos tomando en cuenta como es que la papa actúa en los sembradíos cuando se siembra, cosecha, cando sucede siniestréo y el valor de la producción total. Obtener la regresión lineal múltiple puede ser de información bastante valiosa ya que nos indicará el como se relacionan unas cantidades con otras y poder llegar a una correlación mas amplia. Además de esto se puede diferir con la información que estamos a punto de procesar, causalidades o eventos futuros por los cuales guiarse en el futuro.
Las papas como las conocemos son un tubérculo que pertenece en varias comidas mexicanas y platillos caseros que se consumen por todo el país. Este tubérculo es muy bien conocido entre los agricultores por ocupar muy pocos recursos para abastecer de comida a la población en comparación a los demás. La papa se cultiva en 22 países de la república y es considerado en México como el 7mo cultivo más importante.
Valor
Importación de paquetes
Visualización de tabla de predictores
## Superficie_Sembrada Superficie_Cosechada
## Superficie_Sembrada 1.000 0.951
## Superficie_Cosechada 0.951 1.000
## Superficie_Siniestrada 0.300 -0.010
## Valor_de_la_Produccion 0.892 0.913
## Superficie_Siniestrada Valor_de_la_Produccion
## Superficie_Sembrada 0.300 0.892
## Superficie_Cosechada -0.010 0.913
## Superficie_Siniestrada 1.000 0.067
## Valor_de_la_Produccion 0.067 1.000
En base a los resultados de las correlaciones de pearson se podría decir que el valor de producción de la papa esta relacionada de una gran manera, aproximadamente un 95% con la superficie cosechada de la misma. y se puede ver que la relación que existe entre la superficie cosechada tiene una relación negativa con la superficie siniestrada, esto básicamente significa que si uno sube el otro baja, lo cual es lógico, porque la superficie siniestrada es todo el material que se pierde.
Visualización del comportamiento de los datos en histogramas de frecuencia.
par (mfrow = c(2,2))
hist(papas$Superficie_Sembrada)
hist(papas$Superficie_Cosechada)
hist(papas$Superficie_Siniestrada)
hist(papas$Valor_de_la_Produccion)Como podemos ver en la siguiente gráfica múltiple, se muestran que el valor de la producción y la superficie siniestrada no están correlacionadas tanto como la superficie sembrada y la superficie cosechada, esto puede ser un poco obvio al hablar de teoría pero esto nos ayuda a reafirmar la posición que se tiene sobre estas variables, además de que se pueden ver unos picos interesantes que hacen falta investigar para saber que fue lo que causo que hubiera tanta superficie siniestrada y tanto valor de producción en las primeras etapas de la gráfica
Matriz de correlación multiple
ggpairs(papas, lower = list(continuous = "smooth"),
diag = list(continuous = "barDiag"), axisLabels = "none")En está gráfica se puede apreciar como algunas de las gráficas están en efecto correlacionadas con otras, la manera de saber como es que están verdaderamente correlacionadas es cuando estas pasan el nivel de 0.05 en sus niveles, por lo que se puede apreciar que en almenos 3 tablas la correlación fue exitosa y alta, mientras que en las demás se puede ver que no tienen correlación en absoluto
Generación de modelo
modelo <- lm(Valor_de_la_Produccion ~ Superficie_Sembrada + Superficie_Cosechada + Superficie_Siniestrada, data = papas )
summary(modelo)##
## Call:
## lm(formula = Valor_de_la_Produccion ~ Superficie_Sembrada + Superficie_Cosechada +
## Superficie_Siniestrada, data = papas)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1078104 -384106 18478 280163 1069265
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.138e+06 2.389e+05 -4.764 5.74e-05 ***
## Superficie_Sembrada 7.811e+01 7.970e+01 0.980 0.3357
## Superficie_Cosechada 2.278e+02 8.354e+01 2.726 0.0111 *
## Superficie_Siniestrada NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 524100 on 27 degrees of freedom
## Multiple R-squared: 0.8391, Adjusted R-squared: 0.8272
## F-statistic: 70.4 on 2 and 27 DF, p-value: 1.945e-11
Conclusión:
Podemos remarcar que los datos siniestrados se comportan de una manera muy variada y esto se debe a el cambio climático que llega a suceder en ciertas estaciones del año, esto causa confusiones y problemas a los agricultores ya que muchas veces es de imprevisto que una temepratura extrema o no planeada ocurra y eso conduce a la superficie sinistreada de la que es incierto saber su comportamiento,esto con lleva a que no haya una correlación muy natural de esa parte de los datos, por otro lado podemos ver que la superficie cosechada y la sembrada van de la mano ya que como normalmente no se tiene mucha pérdida en los sembradíos estos estarán actuando de la misma manera a lo largo de su periodo, por último cabe mencionar que el valor de producción si es bastante variado ya que pueden ocurrir muchos erxcenarios, unos de ellos es que normalmente se siembran distintas hortalizas en el mismo campo para mantener los nutrientes al nivel y poder aprovechar la tierra mejor.
Bibliografía:
Editor. (2015, 12 noviembre). El poder de. . . La papa. El Poder del Consumidor. https://elpoderdelconsumidor.org/2015/11/el-poder-de-la-papa/
Panorama. (2018, 16 abril). Papa. Panorama AGROPECUARIO. https://panorama-agro.com/?page_id=2547