Plantamiento

Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

Desarrollo

Se valida la información de la BD Salinidad

load("C:/Users/pocho/Downloads/Salinidad.RData")
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
require(GGally)
## Loading required package: GGally
## Registered S3 method overwritten by 'GGally':
##   method from   
##   +.gg   ggplot2
head(Salinidad)
Biomasa pH Salinidad Zinc Potasio
765.280 5.00 33 16.4524 1441.67
954.017 4.70 35 13.9852 1299.19
827.686 4.20 32 15.3276 1154.27
755.072 4.40 30 17.3128 1045.15
896.176 5.55 33 22.3312 521.62
1422.836 5.50 33 12.2778 1273.02

Punto 1: Análisis correlaciones:

En los siguientes cuadros se mostraran gráficas con sus datos de Correlación para realizar los análisis

##Cuadro de Correlación1
ggpairs(Salinidad, lower = list(continuous="smooth"),diag = list(continuous="barDiag"), axisLabels = "show")

##Cuadro de Correlación2
library(corrplot)
## corrplot 0.92 loaded
data=cbind(Salinidad[1],Salinidad[2],Salinidad[3],Salinidad[4],Salinidad[5])
mcor=cor(data)
mcor
##               Biomasa          pH   Salinidad        Zinc     Potasio
## Biomasa    1.00000000  0.92810235 -0.06657756 -0.78146249 -0.07319518
## pH         0.92810235  1.00000000 -0.04458851 -0.72046995  0.03236212
## Salinidad -0.06657756 -0.04458851  1.00000000 -0.42663388 -0.01963288
## Zinc      -0.78146249 -0.72046995 -0.42663388  1.00000000  0.07877268
## Potasio   -0.07319518  0.03236212 -0.01963288  0.07877268  1.00000000
corrplot::corrplot(mcor,method = "number")

Con lo anterior se puede expresar:

  1. Las correlaciones entre la “y” (Biomasa) y las “x” independientes se pueden clasificar asi:

a. Biomasa y pH tiene una alta correlación con 93% b. Biomasa y Zinc tiene una alta correlación negativa (inversa) con 78% c. Biomasa y las demas “x” tiene una bajisima correlación negativa (inversa) con 0,07%

  1. Se puede observar una fuerte correlación entre el Zinc y el pH, es posible que exista colinealidad.

Punto 2: Modelo de Regresión Lineal Múltiple/ Biomasa:

Para poder realizar el modelo se realizará un análisis bivariado con los datos mas representativos encontrados en el punto anterior (pH y Zinc):

Correlación entre Biomasa y pH:

gs=ggplot(data = Salinidad, mapping = aes(x=pH,y=Biomasa))+geom_point()+theme_bw()+geom_smooth(method = "lm")
ggplotly(gs)
## `geom_smooth()` using formula 'y ~ x'

Recordaremos la correlación tienen estas dos variables:

## Correlación de Pearson
cor(Salinidad$pH,Salinidad$Biomasa)
## [1] 0.9281023

La correlacion de las dos variables es de un 92% el cual es un gran porcentaje de correlación

Correlación entre Biomasa y Zinc:

gs1=ggplot(data = Salinidad, mapping = aes(x=Zinc,y=Biomasa))+geom_point()+theme_bw()+geom_smooth(method = "lm")
ggplotly(gs1)
## `geom_smooth()` using formula 'y ~ x'

Recordaremos la correlación tienen estas dos variables:

## Correlación de Pearson
cor(Salinidad$Zinc,Salinidad$Biomasa)
## [1] -0.7814625

La correlacion de las dos variables es inversa (negativa) de un 78% el cual es un buen porcentaje de correlación

MODELO REGRESIÓN MÚLTIPLE

Ahora, se realizará el primero modelo de regresión lineal simple para determinar su el r\(^2\)

modelo=lm(Biomasa~.,data = Salinidad)
modelo
## 
## Call:
## lm(formula = Biomasa ~ ., data = Salinidad)
## 
## Coefficients:
## (Intercept)           pH    Salinidad         Zinc      Potasio  
##    1492.808      262.883      -33.500      -28.973       -0.115

La ecuación de regresión es \[y=1492.808 + (262.883x) + (-33.500x) + (-28.973x) + (-0.115x)\] ESto quiere decir que el valor la Biomasa sin estimar variables como el pH, Salinidad, Zinc y Potasio es de 1492.808 pesos y:

  1. Por cada unidad de pH crece el valor de la biomasa 262.883 gramos

  2. Por cada unidad de salinidad disminuye el valor de la biomasa 33.500 gramos

  3. Por cada unidad de Zinc disminuye el valor de la biomasa 28.973 gramos

  4. Por cada unidad de potasio disminuye el valor de la biomasa 0.115 gramos

Ahora, para poder determinar que tanto la biomasa en gramos es explicado por las variables, se encontrara el r\(^2\) y determinar la significancia de los de los supuestos

summary(modelo)
## 
## Call:
## lm(formula = Biomasa ~ ., data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Con lo anterior se puede apreciar que todas las variables son significativas para el modelo y le aportan altamente *** a excepción del Potacio, adicional el p-value: < 2.2e-16 con un r\(^2\) de 91%

Realizaremos el Step para validar las variables de peso para el modelo

modelo2=step(modelo)
## Start:  AIC=460.84
## Biomasa ~ pH + Salinidad + Zinc + Potasio
## 
##             Df Sum of Sq     RSS    AIC
## <none>                   1009974 460.84
## - Potasio    1     49785 1059759 461.01
## - Salinidad  1    378486 1388460 473.17
## - Zinc       1    660588 1670562 481.49
## - pH         1   1533665 2543639 500.41

Validación de modelos.

Hipotesis:

¿Cuál sera el gr dela biomasa con un pH de 3.8, una salinidad de 33, Zinc de 20.3 y un potacion de 830,3 ?

R// El gr sera de 702.638 y se moverá entre un rango entre 634.2674 y 771.0086

phb=predict(modelo,list(pH=3.8,Salinidad=33,Zinc=20.3,Potasio=830.3),interval = "confidence",level = 0.95)
phb
##       fit      lwr      upr
## 1 702.638 634.2674 771.0086

Tambien se puede comprobar con los datos que tenemos para corroborar la proyección

posb= which(Salinidad$pH > 3 & Salinidad$Salinidad > 30)
##& Salinidad$Potasio > 830.3)

Salinidad_fil=Salinidad[posb,]
Salinidad_fil
Biomasa pH Salinidad Zinc Potasio
1 765.280 5.00 33 16.4524 1441.67
2 954.017 4.70 35 13.9852 1299.19
3 827.686 4.20 32 15.3276 1154.27
5 896.176 5.55 33 22.3312 521.62
6 1422.836 5.50 33 12.2778 1273.02
7 821.069 4.25 36 17.8225 1346.35
9 1306.494 4.75 38 13.6826 1242.65
12 777.474 3.45 37 16.6752 494.74
13 818.127 3.45 33 12.3730 526.97
14 1203.568 4.10 36 9.4058 571.14
19 615.091 3.35 34 17.8795 496.29
20 545.538 3.30 36 18.5056 580.92
23 664.601 3.20 31 23.1908 552.39
24 502.466 3.20 31 24.6917 661.32
25 496.797 3.35 35 22.6758 672.12
27 2332.220 7.35 35 0.2703 563.13
28 2162.531 7.45 35 0.3205 497.96