| c_agua | molusco | cons_o |
|---|---|---|
| 100 | A | 7.16 |
| 100 | A | 8.26 |
| 100 | A | 6.78 |
| 100 | A | 14.00 |
| 100 | A | 13.60 |
| 100 | A | 11.10 |
Como se puede observar en la gráfica anterior, el consumo promedio de oxigeno para ambos tipos de moluscos es mayor cuando el nivel de concentración de agua de mar es del 50%. El menor consumo promedio de oxigeno para ambos tipos de moluscos se da cuando el nivel de concentración de agua de mar es del 75%. También podemos observar que el molusco Tipo A consumen en promedio más oxigeno que el molusco Tipo B en niveles de concentración de agua de mar del 75% y 100%. Sólo en el nivel de concentración de agua de mar del 50% el molusco Tipo B consume en promedio más oxigeno que el molusco tipo A. Sin embargo, hay gran solapamiento de los intervalos de confianza e incluso hay medias que se asemejan a otras.
b) Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.
##
## Call:
## lm(formula = cons_o ~ c_agua:molusco, data = DB_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.946 -1.736 -0.710 2.237 6.625
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.4063 1.0466 7.077 1.13e-08 ***
## c_agua50:moluscoA 4.7687 1.4800 3.222 0.00246 **
## c_agua75:moluscoA 0.4837 1.4800 0.327 0.74541
## c_agua100:moluscoA 2.5300 1.4800 1.709 0.09476 .
## c_agua50:moluscoB 4.9200 1.4800 3.324 0.00185 **
## c_agua75:moluscoB -1.3113 1.4800 -0.886 0.38069
## c_agua100:moluscoB NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.96 on 42 degrees of freedom
## Multiple R-squared: 0.4226, Adjusted R-squared: 0.3539
## F-statistic: 6.149 on 5 and 42 DF, p-value: 0.0002324
| Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
|---|---|---|---|---|---|
| c_agua:molusco | 5 | 269.3992 | 53.87985 | 6.149144 | 0.0002324 |
| Residuals | 42 | 368.0112 | 8.76217 | NA | NA |
Según el modelo, podemos evidenciar que la concentración de agua al 50% para moluscos de tipo A y B son significativos. En la combinación: c_agua50:moluscoA: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 4.7687 c_agua50:moluscoB: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 4.9200
Para concentraciones de agua al 75% para los moluscos de tipo A y B, vemos el p-value supera el valor de \(\alpha\). Las combinaciones: c_agua75:moluscoA: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 0.4837 c_agua75:moluscoB: si las demás variables permanecen constantes disminuye el consumo de oxigeno en 1.3113
Para concentraciones de agua al 100% para los moluscos de tipo A y B, vemos el p-value supera el valor de \(\alpha\). Las combinaciones: c_agua100:moluscoA: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 2.5300 c_agua75:moluscoB: está combinación no es considerada en el modelo.
El p-valor = 0.1097 > α = 0.05 para la variable molusco, la variable no es significativa en el modelo, no hay diferencias significativas entre las varianzas de la variable.
El modelo presenta un \(R^2=0.4226\) lo que indica que explica la varibilidad del consumo de oxigeno en un 42,26%. su \(p-value = 0.0002324 <= \alpha\).
A continuación se realiza el análisis post anova para comparar las varianzas entre las medias de los grupos desde la concentración de agua y el tipo de molusco:
Post Anova
El Test LSD de Fisher es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.
## $statistics
## MSerror Df Mean CV t.value LSD
## 8.762171 42 9.304792 31.8126 2.018082 2.986858
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none c_agua:molusco 6 0.05
##
## $means
## cons_o std r LCL UCL Min Max Q25 Q50 Q75
## 100:A 9.93625 2.747976 8 7.824222 12.048278 6.78 14.00 7.9850 9.295 11.7250
## 100:B 7.40625 2.844076 8 5.294222 9.518278 3.68 11.60 5.7225 6.140 10.1000
## 50:A 12.17500 3.090178 8 10.062972 14.287028 9.74 18.80 10.3100 11.110 12.5000
## 50:B 12.32625 3.517909 8 10.214222 14.438278 6.38 17.70 10.0575 12.850 14.5000
## 75:A 7.89000 2.739578 8 5.777972 10.002028 5.20 13.20 6.0775 7.180 8.8925
## 75:B 6.09500 2.739108 8 3.982972 8.207028 1.80 9.96 4.8300 5.595 7.3425
##
## $comparison
## NULL
##
## $groups
## cons_o groups
## 50:B 12.32625 a
## 50:A 12.17500 a
## 100:A 9.93625 ab
## 75:A 7.89000 bc
## 100:B 7.40625 bc
## 75:B 6.09500 c
##
## attr(,"class")
## [1] "group"
Podemos ver que la variable moluscos no tiene una diferencia
significativa en su varianza, mientras que la variable c_agua si tiene
una diferencia significativa cuando la concentración de agua de mar es
igual a 50% con respecto a las de nivel de 75% y 100% de concentraciones
de agua de mar.
Se puede observar como los consumos en concentraciones del 50% son mayores independiente del tipo de molusco. por su parte en concentraciones de 75% y molusco de tipo B se ve el menor consumo de oxigeno. Para otras combinaciones hay variabilidad.
| Biomasa | pH | Salinidad | Zinc | Potasio |
|---|---|---|---|---|
| 765.280 | 5.00 | 33 | 16.4524 | 1441.67 |
| 954.017 | 4.70 | 35 | 13.9852 | 1299.19 |
| 827.686 | 4.20 | 32 | 15.3276 | 1154.27 |
| 755.072 | 4.40 | 30 | 17.3128 | 1045.15 |
| 896.176 | 5.55 | 33 | 22.3312 | 521.62 |
| 1422.836 | 5.50 | 33 | 12.2778 | 1273.02 |
a) Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).
Se observa una fuerte correlación entre Biomasa y PH, con un coeficiente de correlación lineal de 92.8%.La siguiente relación (inversa en este caso) más fuerte es entre Biomasa y ZinC con coeficiente de correlación de -78.1 % . De otro lado la relación de biomasa con salinidad y potasio no pareciera ser muy relevante. Es decir que entre los compuestos que componen el suelo para la producción de biomasa en una planta forrajera el PH permite que los gramos de biomasa aumenten, no obstante, un aumento en los componentes como salinidad, zinc y potasio ocasionan una disminusión en la biomasa.
De otro lado se observa una relación fuerte -72.0% de correlación entre zinC y Ph lo que podría generar problemas de multicolinealidad y llevar a la eliminación de una de estas dos variables del modelo.
b) Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.
Modelo 1
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
El modelo de regresión lineal múltiple, sugiere unos parámetros: \(β0=1492.80\;,\; β1=262.88\;,\; β2=-33.4997\;,\; β3=-28.9727\;,\; β4=-0.1150\)
por lo que podemos expresar que
\[Biomasa(PH, Salinidad , Zinc, Potasio) =
\\1492.80 + 262.88*PH - 33.4997*Salinidad - 28.9727*Zinc -
0.1150*Potasio\].
Esto significa que si todas las variables independientes fueran \(0\), el valor de la biomasa sería de \(β0=1492.80\). este coeficiente tiene un p-value=0.002091 que indica que significativo y por lo tanto no se descarta.Si no se tuvieran en cuenta el resto de variables, la produccion de biomasa en promedio seria de 1492 gramos.
\(β1=262.88\) por cada unidad de PH que se aumente, se espera que en promedio la biomasa se incremente en 262.88 gramos. \(β2=-33.4997\) por cada unidad de Salinidad que se incremente,se espera que en promedio la biomasa disminuya en 33.4997 gramos. \(β3=-28.9727\) por cada unidad de Zinc que se incremente, se espera que en promedio la biomasa disminuya en 28.9727 gramos.
\(β1\;,\; β2\;y\; β3\) tienen \(p-values < \alpha\) por lo tanto son significativos para el modelo. Por su parte \(β4\) tiene un \(p-value> \alpha\) lo cual indica que no es relevante o significativo para el modelo.
El coeficiente de determinación representa la proporción de la variabilidad de Y que es posible explicar a travez de x. El modelo tiene un \(R^2=0.9231\) y su \(p-value = 2.2e-16<\alpha\) lo que indica que el modelo construido explica el 92% de las variaciones de la biomasa de una planta forrajera natural a partir del pH, la salinidad, el zinc y el potasio.Es un buen modelo predictor de la variable de salida.
Ahora, Se realiza la prueba de supuestos:
Normalidad Com P−value es mayor a 0.05 (nivel de significancia escogido), no se rechaza H0, entonces podría pensar que los errores siguen una distribución normal.
##
## Shapiro-Wilk normality test
##
## data: mod1_salinidad$residuals
## W = 0.96586, p-value = 0.2036
Supuesto de Homocedasticidad de Varianza (Breush Pagan)
H0:Los residuales se distribuyen con la misma varianza Ha:Los residuales NO se distribuyen con la misma varianza
Como $ P-value $ es mayor a 0.05 (nivel de significancia escogido), no se rechaza H0, entonces se podría pensar que los errores cumplen con el supuesto de homocedasticidad.
##
## studentized Breusch-Pagan test
##
## data: mod1_salinidad
## BP = 5.4945, df = 4, p-value = 0.2402
Supuesto de Autocorrelación de los errores (Durbin-Watson)
H0:No existe correlación entre los errores Ha:Existe correlación entre los errores
Como valor P es mayor a 0.05 (nivel de significancia escogido),no se rechaza H0, entonces se podría pensar que los errores no estan autocorrelacionados.
##
## Durbin-Watson test
##
## data: mod1_salinidad
## DW = 1.6647, p-value = 0.06483
## alternative hypothesis: true autocorrelation is greater than 0