Este es un análisis exploratorio que nos permitirá conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar en los dos tipos de moluscos.
attach(BD_moluscos)
summary(BD_moluscos)
## c_agua molusco cons_o
## Min. : 50 Length:48 Min. : 1.800
## 1st Qu.: 50 Class :character 1st Qu.: 6.312
## Median : 75 Mode :character Median : 9.700
## Mean : 75 Mean : 9.305
## 3rd Qu.:100 3rd Qu.:11.232
## Max. :100 Max. :18.800
tapply(cons_o,c_agua, mean,na.rm=TRUE)
## 50 75 100
## 12.25062 6.99250 8.67125
tapply(cons_o,molusco, mean,na.rm=TRUE)
## A B
## 10.000417 8.609167
Tanto en el summary como en los tapply se puede observar que:
1. Los promedios de consumo de oxígeno para las concentraciones de agua son: 12.2 de consumo de oxígeno para concentración de agua del 50%, 6.99 de consumo de oxígeno para concentración de agua del 75% y por último 8.67 de consumo de oxígeno para concentración de agua del 100%.
2.Los promedios de consumo de oxígeno para los dos tipos de moluscos es: 10 de consumo de oxígeno para el tipo de molusco A, y 8.6 de consumo de oxígeno para el tipo B.
require(ggplot2)
## Loading required package: ggplot2
ggplot(data=BD_moluscos,aes(x=c_agua,y=cons_o, colour=molusco))+geom_point()+theme_bw()+xlab("Concentración de agua de mar")+ylab("Consumo de O.")+geom_smooth()+facet_grid(~molusco)+ggtitle("Relacion consumo de oxigeno y concentración de agua")
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Gráfica #1: en este boxplot se observa de manera muy general los promedios de los datos de los pormedios mostrados anteriormente, donde en el eje y se observa el consumo de oxígeno, en el ejex la concentración de agua de mar y los resultados para ambos tipo de moluscos a modo de divisiones.
Algunas Conclusiones De acuerdo a los datos del exploratorio específicamente del tapply de consumo de O vs tipo de molusco es claro que el molusco tipo A consume más oxígeno (10) que el molusco B (8.6).
Al observar la gráfica también se puede concluir que tanto el molusco del tipo A como del tipo B consumen más oxígeno al 50% de concentración de agua de mar, sin embargo parece que el molusco tipo B consume más oxígeno que le tipo A en este porcentaje. Siguiendo la gráfica también se observa que al 75% de concentración de agua de mar tanto el molusco A como el molusco B tuvieron un bajo consumo de oxígeno, en especial el molusco tipo B.
Modelo #1: el primer modelo de diseño de experimento es para el consumo de oxígeno en función al tipo de molusco.
mod=lm(cons_o~molusco,data=BD_moluscos)
summary(mod)
##
## Call:
## lm(formula = cons_o ~ molusco, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8092 -2.8254 -0.2604 1.7930 9.0908
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.0004 0.7459 13.408 <2e-16 ***
## moluscoB -1.3913 1.0548 -1.319 0.194
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.654 on 46 degrees of freedom
## Multiple R-squared: 0.03644, Adjusted R-squared: 0.01549
## F-statistic: 1.74 on 1 and 46 DF, p-value: 0.1937
Al observar los coeficientes del primer modelo podemos observar que se tomo como valor base los moluscos tipo A y que este tiene un valor p significativo, sin embargo el valor p para los moluscos tipo B no es significativo; por lo que se necesita realizar un análisis anova para confirmar que existen diferencias.
Análisis de Anova: Modelo #1
anova(mod)
## Analysis of Variance Table
##
## Response: cons_o
## Df Sum Sq Mean Sq F value Pr(>F)
## molusco 1 23.23 23.227 1.7396 0.1937
## Residuals 46 614.18 13.352
En el anova del modelo #1 se observa que no cumple con el valor p significativo por lo tanto se podria afirmar que no existen diferencias en el modelo #1 y por lo tanto no es necesario hacer un postanova.
Modelo #2: el segundo modelo de diseño de experimento es para el consumo de oxígeno en función a las concentraciones de agua de mar.
BD_moluscos$c_agua_=as.factor(BD_moluscos$c_agua)
mod2=lm(cons_o~c_agua_,data=BD_moluscos)
summary(mod2)
##
## Call:
## lm(formula = cons_o ~ c_agua_, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.8706 -2.0445 -0.4766 2.2494 6.5494
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.2506 0.7515 16.302 < 2e-16 ***
## c_agua_75 -5.2581 1.0627 -4.948 1.09e-05 ***
## c_agua_100 -3.5794 1.0627 -3.368 0.00156 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.006 on 45 degrees of freedom
## Multiple R-squared: 0.3621, Adjusted R-squared: 0.3338
## F-statistic: 12.77 on 2 and 45 DF, p-value: 4.043e-05
Al observar los coeficientes del egundo modelo podemos observar que se tomo como valor base la concentración de agua del 50% y que todos los coeficientes del modelo tienen un valor p significativo, sin embargo es importante realizar un análisis anova para confirmar que existen diferencias.
anova(mod2)
## Analysis of Variance Table
##
## Response: cons_o
## Df Sum Sq Mean Sq F value Pr(>F)
## c_agua_ 2 230.82 115.408 12.773 4.043e-05 ***
## Residuals 45 406.59 9.035
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
En el anova del modelo #1 se observa que cumple con el valor p significativo por lo tanto se podria afirmar que existen diferencias en el modelo #2 y por lo tanto es necesario hacer un postanova.
Postanova modelo #2:
require(agricolae)
## Loading required package: agricolae
compara=LSD.test(mod2,"c_agua_")
compara
## $statistics
## MSerror Df Mean CV t.value LSD
## 9.03543 45 9.304792 32.30485 2.014103 2.14048
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none c_agua_ 3 0.05
##
## $means
## cons_o std r LCL UCL Min Max Q25 Q50 Q75
## 100 8.67125 3.000940 16 7.157702 10.184798 3.68 14.0 6.140 8.595 10.5750
## 50 12.25062 3.199643 16 10.737077 13.764173 6.38 18.8 10.085 11.455 14.5000
## 75 6.99250 2.804093 16 5.478952 8.506048 1.80 13.2 5.200 6.430 8.7675
##
## $comparison
## NULL
##
## $groups
## cons_o groups
## 50 12.25062 a
## 100 8.67125 b
## 75 6.99250 b
##
## attr(,"class")
## [1] "group"
Del postanova del modelo #2 se pueden sacar varios datos, como por ejemplo se pueden observar los intervalos de confianza para las concentraciones de agua de mar. Por otro lado en la sección groups se puede ver que la concentración de agua de mar más significativa es la de 50%, mientras que las concentraciones 100% y 75% aunque no son tan significativas no hay mucha diferencia entre estas 2, lo que significaría que no hay diferencia significativa cuando se usa estos dos porcentajes de concentración de agua.
Este es un análisis de correlaciones bivariado que nos permitirá identificar las relaciones entre las covariables. En este caso nos permitirá ver la producción de Biomasa en función de las otras covariables (pH, Salinidad, Zinc, Potasio)
attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
##
## Salinidad
cor(Biomasa,Salinidad)
## Biomasa pH Salinidad Zinc Potasio
## [1,] 1 0.9281023 -0.06657756 -0.7814625 -0.07319518
En el análisis podemos observar que las variables con más relación son la variable Biomasa son pH (positiva) y Zinc (negativa), ya que valores como la Salinidad y el Potasio podrían considerarse que tienen una relación muy baja con la Biomasa. Sin embargo es importante realizar un modelo de regresión múltiple para confirmar lo observado en las correlaciones.
Este es la estimación del modelo de regresión lineal múltiple para explicar la Biomasa en función de las covariables.
mod=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod) #el Zinc y Salinidad afectan de manera inversa a Salinidad
##
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
En los valores p de los coeficientes del modelo se observa que las covariables pH, Salinidad, Zinc y Potasio tienen valores p significativos por lo tanto podemos afirmar que estas covariables influyen mucho en la producción de Biomasa, a excepción del Potasio el cual no tiene un valor p significativo por lo que podemos afirmar que no afecta ni influye en la producción de Biomasa.
Un aspecto importante de las covariables que influyen en la producción de Biomasa es que el Zinc y la Salinidad afectan de manera inversa a la Biomasa ya que estan aparecen negativas.
Por lo tanto el modelo de regresión múltiple adecuado para la Biomasa seria:
Biomasa = 1492.8 + (262.8829 x pH) + (-33.4997 x Salinidad) + (-28.9727 x Zinc)