Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.
Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar y si estas conclusiones son las mismas para cada tipo de molusco.
## # A tibble: 6 × 3
## c_agua molusco cons_o
## <dbl> <chr> <dbl>
## 1 100 A 7.16
## 2 100 A 8.26
## 3 100 A 6.78
## 4 100 A 14
## 5 100 A 13.6
## 6 100 A 11.1
El set de datos estos compuestos por tres atributos, en el cual podremos obtener el consumo de agua en distintas concentraciones 50, 75 y 100; dos tipos de moluscos A y B, finalmente consumo de oxígeno.
## psych ggplot2 table1 patchwork
## TRUE TRUE TRUE TRUE
## vars n mean sd median trimmed mad min max range skew kurtosis
## c_agua 1 48 75.0 20.63 75.0 75.00 37.06 50.0 100.0 50 0.00 -1.56
## molusco* 2 48 1.5 0.51 1.5 1.50 0.74 1.0 2.0 1 0.00 -2.04
## cons_o 3 48 9.3 3.68 9.7 9.15 4.54 1.8 18.8 17 0.39 -0.31
## se
## c_agua 2.98
## molusco* 0.07
## cons_o 0.53
El atributo de consumo de oxígeno es una variable continua ya que contiene el resultado del consumo respecto al tipo de molusco y la cantidad de agua dentro del tratamiento, este atributo contine 48 valores en el que podemos encontrar una media de 9.3 y una desviación estándar de 3.68 con una variabilidad del 38% finalmente tendremos valores que van desde 1.8 hasta 18.8 a continuación, observamos su comportamiento:
La variable concentración de agua como factor tiene tres niveles 50, 75 y 100. Para determinar el consumo de oxígeno respecto a tres niveles observamos el siguiente comportamiento:
La media de consumo de oxígeno más elevado es de 11.46 y está presente en concentraciones de 50 así mismo, en esta concentración se observa el mínimo y máximo de consumo de oxígeno más elevado que va desde 6.38 hasta 18.80; por otro lado, la media de consumo más bajo es para el segundo nivel de concentración de agua de mar que es 75 ya que su consumo es de 6.43 con un mínimo de 1.8 y máximo de 13.20. Finalmente, la media de consumo se obtendrá dentro del tipo de concentración 100 con un consumo de 8.59 con mínimo de 3.68 y 14.0
En la anterior figura se aprecia el comportamiento del consumo de oxígeno para cada tipo de molusco en los tres niveles de concentración de agua, en el cual la media más baja y alta es para el tipo de molusco B en concentración de agua del 75 y 50. Finalmente podemos concluir de manera exploratoria que el consumo de oxígeno no es igual para los tipos de molusco ya que el tipo B presenta menores y mayores consumo de oxígeno en para las distintas concentraciones de agua.
En la anterior figura (Figura 4) apreciamos el comportamiento del consumo de oxígeno de acuerdo con el consumo de agua; Para consumos de agua 50 se presenta la mayor media de consumo de agua y la media mínima de consumo se observa para consumo de agua de 75.
Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.
##
## Call:
## lm(formula = cons_o ~ c_agua + molusco + c_agua:molusco, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.946 -1.736 -0.710 2.237 6.625
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.1750 1.0466 11.633 1.02e-14 ***
## c_agua75 -4.2850 1.4800 -2.895 0.00599 **
## c_agua100 -2.2387 1.4800 -1.513 0.13787
## moluscoB 0.1513 1.4800 0.102 0.91909
## c_agua75:moluscoB -1.9462 2.0931 -0.930 0.35777
## c_agua100:moluscoB -2.6813 2.0931 -1.281 0.20722
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.96 on 42 degrees of freedom
## Multiple R-squared: 0.4226, Adjusted R-squared: 0.3539
## F-statistic: 6.149 on 5 and 42 DF, p-value: 0.0002324
Al desarrollar el modelo se aprecia que la variable de concentración de agua al 100 es estadísticamente significativa en el cual produce un 4.3% menos de consumo de oxígeno, por otro lado, las interacciones y las variables no son significativas.
Postanova (Metodología), comparar las combinaciones:
## $statistics
## MSerror Df Mean CV t.value LSD
## 8.762171 42 9.304792 31.8126 2.018082 2.986858
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none c_agua:molusco 6 0.05
##
## $means
## cons_o std r LCL UCL Min Max Q25 Q50 Q75
## 100:A 9.93625 2.747976 8 7.824222 12.048278 6.78 14.00 7.9850 9.295 11.7250
## 100:B 7.40625 2.844076 8 5.294222 9.518278 3.68 11.60 5.7225 6.140 10.1000
## 50:A 12.17500 3.090178 8 10.062972 14.287028 9.74 18.80 10.3100 11.110 12.5000
## 50:B 12.32625 3.517909 8 10.214222 14.438278 6.38 17.70 10.0575 12.850 14.5000
## 75:A 7.89000 2.739578 8 5.777972 10.002028 5.20 13.20 6.0775 7.180 8.8925
## 75:B 6.09500 2.739108 8 3.982972 8.207028 1.80 9.96 4.8300 5.595 7.3425
##
## $comparison
## NULL
##
## $groups
## cons_o groups
## 50:B 12.32625 a
## 50:A 12.17500 a
## 100:A 9.93625 ab
## 75:A 7.89000 bc
## 100:B 7.40625 bc
## 75:B 6.09500 c
##
## attr(,"class")
## [1] "group"
Al desarrollar la prueba de la diferencia significativa del modelo, se aprecia que el mayor consumo de agua se da dentro de las concentraciones de agua del 50 para los tipos de moluscos (A y B). Por otro lado, el consumo de oxígeno para el tipo de molusco A en concentración de agua 100 es el segundo grupo de significancia, el tercer consumo de oxígeno se presenta en concentraciones de agua del 75 y 100 para el tipo de molusco A y B. Finalmente el menor consumo de oxígeno se presenta en las combinaciones en el cual la concentración de agua es de 75 para el tipo de molusco B.
Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).
Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).
## Biomasa pH Salinidad Zinc Potasio
## 1 765.280 5.00 33 16.4524 1441.67
## 2 954.017 4.70 35 13.9852 1299.19
## 3 827.686 4.20 32 15.3276 1154.27
## 4 755.072 4.40 30 17.3128 1045.15
## 5 896.176 5.55 33 22.3312 521.62
## 6 1422.836 5.50 33 12.2778 1273.02
| Respuesta Y | Covariables X | Correlación | Relación |
|---|---|---|---|
| Biomasa | pH | 0.93 | Positiva fuerte |
| Biomasa | Zin | -0.78 | Negativa débil |
| Biomasa | Potasio | -0.07 | No existe |
| Biomasa | Salinidad | -0.07 | No existe |
Las variables de pH y Zin respecto a la variable de respuesta Biomasa poseen la mejor relación, pH de forma positiva fuerte y Zin con relación negativa. Para las variables de Potasio y Salinidad dentro de esta fase de exploración no existe correlación alguna.
Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
Para la estimación del modelo de regresión para explicar la biomasa en función de las covariables, se desarrolla la regresión por pasos para encontrar el subconjunto de variables en el conjunto de datos de Salinidad que resulta en el modelo de mejor rendimiento, por lo tanto, la ecuación inicial de la recta de regresión es:
\[ Y_i(Biomasa) = 1492.8076 + 262.8829*pH +(-33.4997*Salinidad) + (-28.9727*Zinc) + (-0.1150*Potasio) \]
Para las variables regresoras obtenemos los siguientes resultados: - Las variables de pH, Salinidad y Zinc tienen un p-value de \(1.51e^{09}\), \(0.000391\) y \(8.20e^{06}\) respectivamente. Utilizando un nivel alfa de \(\alpha = 0,05\) para determinar qué predictores son significativos dentro del modelo de regresión de concluye que estas son predictores estadísticamente significativos. Sin embargo, Potasio p-value 0.167979 no lo es, pero es de tener en cuenta que al realizar la regresión por pasos los resultados demuestran que esta variable es importante al considerarla en interacción con las demás por esta razón consideramos que debe estar dentro del modelo propuesto.
## [1] 0.9230843
El factor de inflación de variación \(VIF = \frac{1}{1-R_i^2}\) < 5 del modelo demuestra que no existe correlación entre las variables predictoras del modelo.