Emerson Trujillo Sierra

Pregunta 2

  1. Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).
##    Biomasa   pH Salinidad    Zinc Potasio
## 1  765.280 5.00        33 16.4524 1441.67
## 2  954.017 4.70        35 13.9852 1299.19
## 3  827.686 4.20        32 15.3276 1154.27
## 4  755.072 4.40        30 17.3128 1045.15
## 5  896.176 5.55        33 22.3312  521.62
## 6 1422.836 5.50        33 12.2778 1273.02
  1. Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).
library(GGally)
library(dplyr)
ggpairs(DB_Salinidad, lower = list(continuous = "smooth"),
        diag = list(continuous = "barDiag"), axisLabels = "none")

En el gráfico anterior se puede observar:

Es posibe evidenciar que entre los compuestos que componen el suelo para la producción de biomasa en una planta forrajera el PH permite que los gramos de biomasa aumente, no obstante, un aumento en los componentes como salinidad, zinc y potasio ocasionan una disminusión en la biomasa.

No existe multicolinealidad entre las variables independientes (pH, Salinidad, Zinc, Potasio), ya que que el coeficiente de correlación entre ellas es despreciable, por lo que no será un problema para el modelo de RLM.

  1. Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

Modelo RLM 1

mod1_salinidad = lm (formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data=DB_Salinidad)
summary(mod1_salinidad)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Modelo RLM 2 ajustado

mod2_salinidad = lm (formula = Biomasa ~ log(pH) + log(Salinidad) + Zinc + Potasio , data=DB_Salinidad)
summary(mod2_salinidad)
## 
## Call:
## lm(formula = Biomasa ~ log(pH) + log(Salinidad) + Zinc + Potasio, 
##     data = DB_Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -283.96  -79.72    0.03   77.27  362.74 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     3.515e+03  1.109e+03   3.170 0.002919 ** 
## log(pH)         1.248e+03  1.586e+02   7.867 1.20e-09 ***
## log(Salinidad) -1.048e+03  2.605e+02  -4.021 0.000249 ***
## Zinc           -3.100e+01  5.418e+00  -5.722 1.16e-06 ***
## Potasio        -2.253e-01  8.142e-02  -2.768 0.008510 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 151.6 on 40 degrees of freedom
## Multiple R-squared:   0.93,  Adjusted R-squared:  0.923 
## F-statistic: 132.9 on 4 and 40 DF,  p-value: < 2.2e-16

Modelo RLM 3 (encontrar el mejor modelo)

mod3_salinidad = step(mod1_salinidad)
## Start:  AIC=460.84
## Biomasa ~ pH + Salinidad + Zinc + Potasio
## 
##             Df Sum of Sq     RSS    AIC
## <none>                   1009974 460.84
## - Potasio    1     49785 1059759 461.01
## - Salinidad  1    378486 1388460 473.17
## - Zinc       1    660588 1670562 481.49
## - pH         1   1533665 2543639 500.41
summary(mod3_salinidad)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16
require(memisc)
require(MASS)

memisc::mtable(mod1_salinidad, mod2_salinidad, mod3_salinidad)
## 
## Calls:
## mod1_salinidad: lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
## mod2_salinidad: lm(formula = Biomasa ~ log(pH) + log(Salinidad) + Zinc + Potasio, 
##     data = DB_Salinidad)
## mod3_salinidad: lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
## 
## ==================================================================
##                   mod1_salinidad  mod2_salinidad  mod3_salinidad  
## ------------------------------------------------------------------
##   (Intercept)      1492.808**       3514.723**     1492.808**     
##                    (453.601)       (1108.637)      (453.601)      
##   pH                262.883***                      262.883***    
##                     (33.730)                        (33.730)      
##   Salinidad         -33.500***                      -33.500***    
##                      (8.652)                         (8.652)      
##   Zinc              -28.973***       -31.002***     -28.973***    
##                      (5.664)          (5.418)        (5.664)      
##   Potasio            -0.115           -0.225**       -0.115       
##                      (0.082)          (0.081)        (0.082)      
##   log(pH)                           1247.812***                   
##                                     (158.623)                     
##   log(Salinidad)                   -1047.684***                   
##                                     (260.529)                     
## ------------------------------------------------------------------
##   R-squared           0.923            0.930          0.923       
##   N                  45               45             45           
## ==================================================================
##   Significance: *** = p < 0.001; ** = p < 0.01; * = p < 0.05

Conclusiones: En el Modelo RLM 1 y Modelo RLM 3 los valores p para todas las variables excepto para Potasio indican que los betas correspondientes son significativos en el modelo. En el Modelo RLM 2 que tiene una transformación (con logaritmo), todas las variables son significativas para el modelo.

En cuanto al R2, los tres modelos presentan un valor por encima del 0.9, por lo que cualquiera de los modelos explican en más de un 90% a la variable dependiente (Biomasa)

El Modelo RLM 3 no varia del Modelo RLM 1, ya que la función step() no decidió eliminar ninguna variable del Modelo RLM 1.