| c_agua | molusco | cons_o |
|---|---|---|
| 100 | A | 7.16 |
| 100 | A | 8.26 |
| 100 | A | 6.78 |
| 100 | A | 14.00 |
| 100 | A | 13.60 |
| 100 | A | 11.10 |
Como se puede observar en la gráfica anterior, el consumo promedio de oxigeno para ambos tipos de moluscos es mayor cuando el nivel de concentración de agua de mar es del 50%. El menor consumo promedio de oxigeno para ambos tipos de moluscos se da cuando el nivel de concentración de agua de mar es del 75%. También podemos observar que el molusco Tipo A consumen en promedio más oxigeno que el molusco Tipo B en niveles de concentración de agua de mar del 75% y 100%. Sólo en el nivel de concentración de agua de mar del 50% el molusco Tipo B consume en promedio más oxigeno que el molusco tipo A. Sin embargo, hay gran solapamiento de los intervalos de confianza e incluso hay medias que se asemejan a otras.
b) Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.
##
## Call:
## lm(formula = cons_o ~ c_agua + molusco, data = DB_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.1750 -1.9877 -0.7019 2.1244 6.1450
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.9463 0.8521 15.193 < 2e-16 ***
## c_agua75 -5.2581 1.0436 -5.038 8.49e-06 ***
## c_agua100 -3.5794 1.0436 -3.430 0.00132 **
## moluscoB -1.3913 0.8521 -1.633 0.10966
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.952 on 44 degrees of freedom
## Multiple R-squared: 0.3986, Adjusted R-squared: 0.3575
## F-statistic: 9.719 on 3 and 44 DF, p-value: 4.866e-05
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| c_agua | 2 | 230.81603 | 115.408015 | 13.245654 | 0.0000314 |
| molusco | 1 | 23.22692 | 23.226919 | 2.665809 | 0.1096627 |
| Residuals | 44 | 383.36745 | 8.712897 | NA | NA |
El modelo propuesto tiene un \(R^2=0.3986\) lo que indica que explica en un 39,8% la variabilidad del consumo de oxigeno.
Podemos decir que \(c\_agua\): Nivel de concentración de agua de mar es significativa ya que su \(p-value = 3.14e-05<\alpha\). Por su parte la variable \(molusco\) no es significativa para el modelo ya que su \(p-value = 0.10966>\alpha\).
Post Anova
## $statistics
## MSerror Df Mean CV t.value LSD
## 8.712897 44 9.304792 31.72303 2.015368 2.974442
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none c_agua:molusco 6 0.05
##
## $means
## cons_o std r LCL UCL Min Max Q25 Q50 Q75
## 100:A 9.93625 2.747976 8 7.833002 12.039498 6.78 14.00 7.9850 9.295 11.7250
## 100:B 7.40625 2.844076 8 5.303002 9.509498 3.68 11.60 5.7225 6.140 10.1000
## 50:A 12.17500 3.090178 8 10.071752 14.278248 9.74 18.80 10.3100 11.110 12.5000
## 50:B 12.32625 3.517909 8 10.223002 14.429498 6.38 17.70 10.0575 12.850 14.5000
## 75:A 7.89000 2.739578 8 5.786752 9.993248 5.20 13.20 6.0775 7.180 8.8925
## 75:B 6.09500 2.739108 8 3.991752 8.198248 1.80 9.96 4.8300 5.595 7.3425
##
## $comparison
## NULL
##
## $groups
## cons_o groups
## 50:B 12.32625 a
## 50:A 12.17500 a
## 100:A 9.93625 ab
## 75:A 7.89000 bc
## 100:B 7.40625 bc
## 75:B 6.09500 c
##
## attr(,"class")
## [1] "group"
Con el análisis de post ANOVA, podemos ver la conformación de grupos (Concentración de agua de mar, tipo molusco) y podemos concluir que la variable moluscos no tiene una diferencia significativa en su varianza, mientras que la variable c_agua si tiene una diferencia significativa cuando la concentración de agua de mar es igual a 50% con respecto al 75% y 100%.
| Biomasa | pH | Salinidad | Zinc | Potasio |
|---|---|---|---|---|
| 765.280 | 5.00 | 33 | 16.4524 | 1441.67 |
| 954.017 | 4.70 | 35 | 13.9852 | 1299.19 |
| 827.686 | 4.20 | 32 | 15.3276 | 1154.27 |
| 755.072 | 4.40 | 30 | 17.3128 | 1045.15 |
| 896.176 | 5.55 | 33 | 22.3312 | 521.62 |
| 1422.836 | 5.50 | 33 | 12.2778 | 1273.02 |
a) Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).
Se observa una fuerte correlación entre Biomasa y PH, con un coeficiente de correlación lineal de 92.8%.La siguiente relación (inversa en este caso) más fuerte es entre Biomasa y Zink con coeficiente de correlación de -78.1 % . De otro lado la relación de biomasa con salinidad y potasio no pareciera ser muy relevante. Es decir que entre los compuestos que componen el suelo para la producción de biomasa en una planta forrajera el PH permite que los gramos de biomasa aumenten, no obstante, un aumento en los componentes como salinidad, zinc y potasio ocasionan una disminusión en la biomasa.
De otro lado se observa una relación fuerte -72.0% de correlación entre zink y Ph lo que podría generar problemas de multicolinealidad y llevar a la eliminación de una de estas dos variables del modelo.
b) Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.
Modelo 1
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
El modelo de regresión lineal múltiple, sugiere unos parámetros: \(β0=1492.80\;,\; β1=262.88\;,\; β2=-33.4997\;,\; β3=-28.9727\;,\; β4=-0.1150\)
por lo que podemos expresar que
\[Biomasa(PH, Salinidad , Zinc, Potasio) =
\\1492.80 + 262.88*PH - 33.4997*Salinidad - 28.9727*Zinc -
0.1150*Potasio\].
Esto significa que si todas las variables independientes fueran \(0\), el valor de la biomasa sería de \(β0=1492.80\). este coeficiente tiene un p-value=0.002091 que indica que significativo y por lo tanto no se descarta.
\(β1=262.88\) indica que por cada unidad de PH la biomasa se incrementa en 262.88 gramos. \(β2=-33.4997\) indica que por cada unidad de Salinidad la biomasa disminuye en 33.4997 gramos. \(β3=-28.9727\) indica que por cada unidad de Zinc la biomasa disminuye en 28.9727 gramos. \(β4=-0.1150\) indica que por cada unidad de potasio la biomasa disminuye en 0.1150 gramos.
\(β1\;,\; β2\;y\; β3\) tienen \(p-values < \alpha\) por lo tanto son significativos para el modelo. Por su parte \(β3\) tiene un \(p-value> \alpha\) lo cual indica que no es relevante para el modelo.
El modelo tiene un \(R^2=0.9231\) y su \(p-value = 2.2e-16<\alpha\) lo que indica que es un modelo que describe el 92.31% la variabilidad de la Biomasa. Es un buen modelo predictor de la variable de salida.