1. Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

a. Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar y si estas conclusiones son las mismas para cada tipo de molusco.

load("moluscos.RData")
require(ggplot2)
## Loading required package: ggplot2
## Warning: package 'ggplot2' was built under R version 4.0.5
BD_moluscos$c_agua=as.factor(BD_moluscos$c_agua)
g1<-ggplot(BD_moluscos, aes (y=cons_o, x=c_agua, fill= c_agua))
g2<-g1+geom_boxplot()+xlab("concentración del agua")+ylab("consumo de oxígeno")+ ggtitle("Análisis exploratorio")+facet_grid(~molusco)
g2

Con este diagrama de cajas podemos podemos observar que el consumo de oxígeno siempre será mayor, tanto en molusco tipo A como en tipo B, en el agua con concentración del 50%. Sin embargo, el molusco de tipo B presenta mayor variabilidad a la hora medir su consumo de oxígeno, por lo que se puede inferir que estos consumen más que los del tipo A. Además, interpretando la concentración del 100% se puede observar que el mayor consumo lo tiene el molucos de tipo A, pero la varibilidad destaca más al molusco B. Y por ultimo, en la concentración del 75% el molusco A consume un poco más que el tipo B, su diferencia es mínima. Por lo tanto, se puede inferir que el consumo de oxígeno puede que dependa de la concenración,siendo este el factor más influyente en el estudio.

b. Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

Anova<- aov(cons_o~c_agua*molusco, data = BD_moluscos)
summary(Anova)
##                Df Sum Sq Mean Sq F value   Pr(>F)    
## c_agua          2  230.8  115.41  13.171 3.63e-05 ***
## molusco         1   23.2   23.23   2.651    0.111    
## c_agua:molusco  2   15.4    7.68   0.876    0.424    
## Residuals      42  368.0    8.76                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Al realizar el modelo de diseño experimental se puede confirmar que la concentración del agua es el factor más significante en el estudio.

2. Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes,y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

a. Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).

load("Salinidad.RData")
require (PerformanceAnalytics)
## Loading required package: PerformanceAnalytics
## Warning: package 'PerformanceAnalytics' was built under R version 4.0.5
## Loading required package: xts
## Warning: package 'xts' was built under R version 4.0.5
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
## 
## Attaching package: 'PerformanceAnalytics'
## The following object is masked from 'package:graphics':
## 
##     legend
chart.Correlation(Salinidad, histogram = TRUE, method = "pearson")

Según la interpretación que se le debe de dar al coeficiente de correlación de pearson \((co)\),los valores que son menores a 1 y mayores a 0 represetan una correlación positiva, lo cual se presenta entre la variable predictora PH y la variable respuesta BIOMASA \((co=0.93)\). Otra interpretación que se le da al coeficiente es que si este es menor a 0 y mayor a -1 representa una correlación negativa como lo es con las demás variables como lo son: SALINIDAD \((co=-0.067)\), ZINC\((co=-0.78)\) Y POTASIO \((co=-0.073)\).

Correlación positiva= Cuando el valor de una variable aumenta, la otra también aumenta Correlación negativa= Cuando el valor de una variable aumenta, la otra disminuye.

Conclusión: El pH es el principal factor que influye en la producción de biomasa

b. Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

mod<- lm(Biomasa~pH+Salinidad+Zinc+Potasio, data = Salinidad)
summary(mod)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

La interpretación que se le da al modelo es la siguiente: a medida que incrementa un valor en el pH incrementan 262.8829 de biomasa, cuando incrementa una unidad de salinidad disminuye -33.4997 unidades de biomasa, cuando incrementa una unidad de zinc disminuye -28.9727 unidades de biomasa; siendo estas las covariables más significativas en el estudio, mientras que el potasio no, si aumenta una unidad de potasio disminuye -0.1150 de biomasa que es muy poco a comparación del resto de estimaciones.

El resumen de la regresión arroja un \(R^2= 0.92\) que significa que el modelo explica el 92% de la variabilidad de los datos.