1. Datos Salinidad

Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (g) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

1a.

Realice un análisis exploratorio univariado para cada característica e interpretar.

library(ggplot2)
library(patchwork)
library(latexpdf)
load("Salinidad.Rdata")
load("moluscos.Rdata")

head(Salinidad)

Estadísticas Descriptivas

summary(Salinidad)
##     Biomasa             pH          Salinidad          Zinc        
##  Min.   : 369.8   Min.   :3.200   Min.   :24.00   Min.   : 0.2105  
##  1st Qu.: 654.8   1st Qu.:3.450   1st Qu.:27.00   1st Qu.:13.9852  
##  Median : 991.8   Median :4.450   Median :30.00   Median :19.2420  
##  Mean   :1082.2   Mean   :4.609   Mean   :30.27   Mean   :17.8308  
##  3rd Qu.:1346.9   3rd Qu.:5.350   3rd Qu.:33.00   3rd Qu.:22.6758  
##  Max.   :2337.3   Max.   :7.450   Max.   :38.00   Max.   :31.2865  
##     Potasio      
##  Min.   : 350.7  
##  1st Qu.: 527.0  
##  Median : 773.3  
##  Mean   : 797.4  
##  3rd Qu.: 954.1  
##  Max.   :1441.7

Boxplot

h1 = ggplot(Salinidad, aes(y = Biomasa)) +
  geom_boxplot(fill = "#CDB4DB") +
  labs(title = "Boxplot de Biomasa", x = "", y = "Biomasa")

h2 = ggplot(Salinidad, aes(y = pH)) +
  geom_boxplot(fill = "#A8E6CF") +
  labs(title = "Boxplot de pH", x = "", y = "pH")

h3 = ggplot(Salinidad, aes(y = Salinidad)) +
  geom_boxplot(fill = "#FFF1A8") +
  labs(title = "Boxplot de Salinidad", x = "", y = "Salinidad")

h4 = ggplot(Salinidad, aes(y = Zinc)) +
  geom_boxplot(fill = "#FFB3BA") +
  labs(title = "Boxplot de Zinc", x = "", y = "Zinc")

h5 = ggplot(Salinidad, aes(y = Potasio)) +
  geom_boxplot(fill = "#BDE0FE") +
  labs(title = "Boxplot de Potasio", x = "", y = "Potasio")

(h1 + h2 + h3) / (h4 + h5)

Histogramas

t1=ggplot(Salinidad, aes(x = Biomasa)) +
  geom_histogram(binwidth = 150, fill = "#CDB4DB", color = "black") +
  labs(title = "Histograma de Biomasa", x = "Biomasa (g)", y = "Frecuencia")

t2=ggplot(Salinidad, aes(x = pH)) +
  geom_histogram(binwidth = 1, fill = "#A8E6CF", color = "black") +
  labs(title = "Histograma de pH", x = "pH", y = "Frecuencia")

t3=ggplot(Salinidad, aes(x = Salinidad)) +
  geom_histogram(binwidth = 10, fill = "#FFF1A8", color = "black") +
  labs(title = "Histograma de Salinidad", x = "Salinidad", y = "Frecuencia")

t4=ggplot(Salinidad, aes(x = Zinc)) +
  geom_histogram(binwidth = 10, fill = "#FFB3BA", color = "black") +
  labs(title = "Histograma de Zinc", x = "Zinc", y = "Frecuencia")

t5=ggplot(Salinidad, aes(x = Potasio)) +
  geom_histogram(binwidth = 100, fill = "#BDE0FE", color = "black") +
  labs(title = "Histograma de Potasio", x = "Potasio", y = "Frecuencia")

(t1+t2+t3)/(t4+t5)

Interpretación

A partir de los histogramas y boxplots se observa la distribución de cada variable de forma individual. La biomasa presenta una amplia variabilidad, con valores concentrados aproximadamente entre 600 y 1400 g.

El pH muestra una distribución relativamente concentrada entre 3 y 6.

La salinidad presenta menor dispersión y la mayoría de observaciones se agrupan cerca de 30.

En el caso del zinc, los valores se concentran entre 15 y 25, con posible presencia de un valor atípico bajo.

Finalmente, el potasio presenta una variabilidad moderada con valores entre 500 y 1000.

En general, las variables presentan diferentes niveles de dispersión, lo que indica heterogeneidad en las características del suelo.

1b.

Realice un análisis exploratorio bivariado que permita conocer como es la relación entre la biomasa y las covariables pH, Salinidad y Zinc (determine cuales variables sonlas que presentan mayor relación con la biomasa).

Correlaciones

cor_pH <- cor(Salinidad$Biomasa, Salinidad$pH)
cor_sal <- cor(Salinidad$Biomasa, Salinidad$Salinidad)
cor_zinc <- cor(Salinidad$Biomasa, Salinidad$Zinc)
cor_pot <- cor(Salinidad$Biomasa, Salinidad$Potasio)

cat(
  "pH:", round(cor_pH, 3), "\n",
  "Salinidad:", round(cor_sal, 3), "\n",
  "Zinc:", round(cor_zinc, 3), "\n",
  "Potasio:", round(cor_pot, 3)
)
## pH: 0.928 
##  Salinidad: -0.067 
##  Zinc: -0.781 
##  Potasio: -0.073
# pH
g1 = ggplot(Salinidad,aes(y=Biomasa, x=pH))+
  geom_point()+
  theme_bw()+
  ggtitle("Correlación de 0.928")+
  geom_smooth(method = lm)



# Salinidad
g2 = ggplot(Salinidad,aes(y=Biomasa, x=Salinidad))+
  geom_point()+
  theme_bw()+
  ggtitle("Correlación de -0.067")+
  geom_smooth(method = lm)



# Zinc
g3 = ggplot(Salinidad,aes(y=Biomasa, x=Zinc))+
  geom_point()+
  theme_bw()+
  ggtitle("Correlación de -0.781")+
  geom_smooth(method = lm)


# Potasio
g4 = ggplot(Salinidad,aes(y=Biomasa, x=Potasio))+
  geom_point()+
  theme_bw()+
  ggtitle("Correlación de -0.073")+
  geom_smooth(method = lm)



(g1+g2) / (g3+g4)

Interpretación

El análisis bivariado muestra diferentes niveles de relación entre la biomasa y las variables del suelo.

La biomasa presenta una relación positiva muy fuerte con el pH (r = 0.928), lo que indica que al aumentar el pH también aumenta la biomasa.

En contraste, el zinc muestra una relación negativa fuerte (r = -0.781), indicando que mayores concentraciones de zinc se asocian con menor biomasa.

Por otro lado, salinidad (r = -0.067) y potasio (r = -0.073) presentan correlaciones muy débiles, por lo que no muestran una relación clara con la biomasa.

2. Datos Moluscos

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

2a.

Realice un análisis exploratorio univariado para cada característica e interpretar.

head(BD_moluscos)

Estadísticas Descriptivas

summary(BD_moluscos)
##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800

Variables:

Consumo de Oxígeno

y1=ggplot(BD_moluscos, aes(x = cons_o)) +
  geom_histogram(binwidth = 1, fill = "#CDB4DB", color = "black") +
  labs(title = "Histograma de Consumo de Oxígeno", x = "Consumo de oxígeno", y = "Frecuencia")

y2=ggplot(BD_moluscos, aes(y = cons_o)) +
  geom_boxplot(fill = "#CDB4DB") +
  labs(title = "Boxplot de Consumo de Oxígeno", y = "Consumo de oxígeno", x = "")

(y1+y2)

Concentración de Agua de Mar

library(knitr)

freq <- table(BD_moluscos$c_agua)

tabla <- as.data.frame(freq)
tabla$Porcentaje <- round(prop.table(tabla$Freq) * 100, 2)

kable(tabla,
      col.names = c("Concentración de agua de mar (%)", "Frecuencia", "Porcentaje (%)"),
      align = "c",
      caption = "Tabla de frecuencia de la concentración de agua de mar")
Tabla de frecuencia de la concentración de agua de mar
Concentración de agua de mar (%) Frecuencia Porcentaje (%)
50 16 33.33
75 16 33.33
100 16 33.33

Tipo de Molusco

library(knitr)

freq <- table(BD_moluscos$molusco)

tabla <- as.data.frame(freq)
tabla$Porcentaje <- round(prop.table(tabla$Freq) * 100, 2)

kable(tabla,
      col.names = c("Tipo de molusco", "Frecuencia", "Porcentaje (%)"),
      align = "c",
      caption = "Tabla de frecuencia del tipo de molusco")
Tabla de frecuencia del tipo de molusco
Tipo de molusco Frecuencia Porcentaje (%)
A 24 50
B 24 50

Interpretación

El consumo de oxígeno presenta valores entre 2 y 19, con mayor concentración alrededor de 8–12.

Las concentraciones de agua de mar (50%, 75% y 100%) presentan frecuencias similares, indicando un diseño experimental balanceado.

Los tipos de molusco A y B también presentan cantidades similares de observaciones, lo que permite realizar comparaciones adecuadas.

2b.

Realice un análisis exploratorio bivariado que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

ggplot(BD_moluscos, aes(x = c_agua, y = cons_o)) +
  geom_point() +
  theme_bw() +
  ggtitle("Consumo de oxígeno vs concentración de agua de mar") +
  geom_smooth(method = lm)

ggplot(BD_moluscos, aes(x = c_agua, y = cons_o, color = molusco)) +
  geom_point() +
  geom_smooth(method = lm) +
  theme_bw() +
  ggtitle("Consumo de oxígeno vs concentración de agua de mar según tipo de molusco")

Coeficiente de correlación

cat("cons_o y c_agua:",
    round(cor(BD_moluscos$cons_o, BD_moluscos$c_agua), 3))
## cons_o y c_agua: -0.401

Interpretación

Se observa una relación negativa moderada entre el consumo de oxígeno y la concentración de agua de mar (r = -0.401).

Esto indica que a mayor concentración de agua de mar, el consumo de oxígeno tiende a disminuir ligeramente.

Al analizar por tipo de molusco, ambos muestran tendencia negativa, pero el molusco B presenta una disminución más pronunciada, mientras que en el molusco A la relación es más suave.

Por lo tanto, la concentración de agua influye en el consumo de oxígeno, pero el efecto varía según el tipo de molusco.