Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).
Se valida la información de la BD Salinidad
load("C:/Users/pocho/Downloads/Salinidad.RData")
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
require(GGally)
## Loading required package: GGally
## Registered S3 method overwritten by 'GGally':
## method from
## +.gg ggplot2
head(Salinidad)
| Biomasa | pH | Salinidad | Zinc | Potasio |
|---|---|---|---|---|
| 765.280 | 5.00 | 33 | 16.4524 | 1441.67 |
| 954.017 | 4.70 | 35 | 13.9852 | 1299.19 |
| 827.686 | 4.20 | 32 | 15.3276 | 1154.27 |
| 755.072 | 4.40 | 30 | 17.3128 | 1045.15 |
| 896.176 | 5.55 | 33 | 22.3312 | 521.62 |
| 1422.836 | 5.50 | 33 | 12.2778 | 1273.02 |
En los siguientes cuadros se mostraran gráficas con sus datos de Correlación para realizar los análisis
##Cuadro de Correlación1
ggpairs(Salinidad, lower = list(continuous="smooth"),diag = list(continuous="barDiag"), axisLabels = "show")
##Cuadro de Correlación2
library(corrplot)
## corrplot 0.92 loaded
data=cbind(Salinidad[1],Salinidad[2],Salinidad[3],Salinidad[4],Salinidad[5])
mcor=cor(data)
mcor
## Biomasa pH Salinidad Zinc Potasio
## Biomasa 1.00000000 0.92810235 -0.06657756 -0.78146249 -0.07319518
## pH 0.92810235 1.00000000 -0.04458851 -0.72046995 0.03236212
## Salinidad -0.06657756 -0.04458851 1.00000000 -0.42663388 -0.01963288
## Zinc -0.78146249 -0.72046995 -0.42663388 1.00000000 0.07877268
## Potasio -0.07319518 0.03236212 -0.01963288 0.07877268 1.00000000
corrplot::corrplot(mcor,method = "number")
Con lo anterior se puede expresar:
a. Biomasa y pH tiene una alta correlación con 93% b. Biomasa y Zinc tiene una alta correlación negativa (inversa) con 78% c. Biomasa y las demas “x” tiene una bajisima correlación negativa (inversa) con 0,07%
Para poder realizar el modelo se realizará un análisis bivariado con los datos mas representativos encontrados en el punto anterior (pH y Zinc):
gs=ggplot(data = Salinidad, mapping = aes(x=pH,y=Biomasa))+geom_point()+theme_bw()+geom_smooth(method = "lm")
ggplotly(gs)
## `geom_smooth()` using formula 'y ~ x'
Recordaremos la correlación tienen estas dos variables:
## Correlación de Pearson
cor(Salinidad$pH,Salinidad$Biomasa)
## [1] 0.9281023
La correlacion de las dos variables es de un 92% el cual es un gran porcentaje de correlación
gs1=ggplot(data = Salinidad, mapping = aes(x=Zinc,y=Biomasa))+geom_point()+theme_bw()+geom_smooth(method = "lm")
ggplotly(gs1)
## `geom_smooth()` using formula 'y ~ x'
Recordaremos la correlación tienen estas dos variables:
## Correlación de Pearson
cor(Salinidad$Zinc,Salinidad$Biomasa)
## [1] -0.7814625
La correlacion de las dos variables es inversa (negativa) de un 78% el cual es un buen porcentaje de correlación
Ahora, se realizará el primero modelo de regresión lineal simple para determinar su el r\(^2\)
modelo=lm(Biomasa~.,data = Salinidad)
modelo
##
## Call:
## lm(formula = Biomasa ~ ., data = Salinidad)
##
## Coefficients:
## (Intercept) pH Salinidad Zinc Potasio
## 1492.808 262.883 -33.500 -28.973 -0.115
La ecuación de regresión es \[y=1492.808 + (262.883x) + (-33.500x) + (-28.973x) + (-0.115x)\] ESto quiere decir que el valor la Biomasa sin estimar variables como el pH, Salinidad, Zinc y Potasio es de 1492.808 pesos y:
Por cada unidad de pH crece el valor de la biomasa 262.883 gramos
Por cada unidad de salinidad disminuye el valor de la biomasa 33.500 gramos
Por cada unidad de Zinc disminuye el valor de la biomasa 28.973 gramos
Por cada unidad de potasio disminuye el valor de la biomasa 0.115 gramos
Ahora, para poder determinar que tanto la biomasa en gramos es explicado por las variables, se encontrara el r\(^2\) y determinar la significancia de los de los supuestos
summary(modelo)
##
## Call:
## lm(formula = Biomasa ~ ., data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
Con lo anterior se puede apreciar que todas las variables son significativas para el modelo y le aportan altamente *** a excepción del Potacio, adicional el p-value: < 2.2e-16 con un r\(^2\) de 91%
Realizaremos el Step para validar las variables de peso para el modelo
modelo2=step(modelo)
## Start: AIC=460.84
## Biomasa ~ pH + Salinidad + Zinc + Potasio
##
## Df Sum of Sq RSS AIC
## <none> 1009974 460.84
## - Potasio 1 49785 1059759 461.01
## - Salinidad 1 378486 1388460 473.17
## - Zinc 1 660588 1670562 481.49
## - pH 1 1533665 2543639 500.41
Hipotesis:
¿Cuál sera el gr dela biomasa con un pH de 3.8, una salinidad de 33, Zinc de 20.3 y un potacion de 830,3 ?
R// El gr sera de 702.638 y se moverá entre un rango entre 634.2674 y 771.0086
phb=predict(modelo,list(pH=3.8,Salinidad=33,Zinc=20.3,Potasio=830.3),interval = "confidence",level = 0.95)
phb
## fit lwr upr
## 1 702.638 634.2674 771.0086
Tambien se puede comprobar con los datos que tenemos para corroborar la proyección
posb= which(Salinidad$pH > 3 & Salinidad$Salinidad > 30)
##& Salinidad$Potasio > 830.3)
Salinidad_fil=Salinidad[posb,]
Salinidad_fil
| Biomasa | pH | Salinidad | Zinc | Potasio | |
|---|---|---|---|---|---|
| 1 | 765.280 | 5.00 | 33 | 16.4524 | 1441.67 |
| 2 | 954.017 | 4.70 | 35 | 13.9852 | 1299.19 |
| 3 | 827.686 | 4.20 | 32 | 15.3276 | 1154.27 |
| 5 | 896.176 | 5.55 | 33 | 22.3312 | 521.62 |
| 6 | 1422.836 | 5.50 | 33 | 12.2778 | 1273.02 |
| 7 | 821.069 | 4.25 | 36 | 17.8225 | 1346.35 |
| 9 | 1306.494 | 4.75 | 38 | 13.6826 | 1242.65 |
| 12 | 777.474 | 3.45 | 37 | 16.6752 | 494.74 |
| 13 | 818.127 | 3.45 | 33 | 12.3730 | 526.97 |
| 14 | 1203.568 | 4.10 | 36 | 9.4058 | 571.14 |
| 19 | 615.091 | 3.35 | 34 | 17.8795 | 496.29 |
| 20 | 545.538 | 3.30 | 36 | 18.5056 | 580.92 |
| 23 | 664.601 | 3.20 | 31 | 23.1908 | 552.39 |
| 24 | 502.466 | 3.20 | 31 | 24.6917 | 661.32 |
| 25 | 496.797 | 3.35 | 35 | 22.6758 | 672.12 |
| 27 | 2332.220 | 7.35 | 35 | 0.2703 | 563.13 |
| 28 | 2162.531 | 7.45 | 35 | 0.3205 | 497.96 |