El siguiente trabajo consiste en a realizar un análisis exploratorio univariado y bivariado para las dos bases de datos: Salinidad y Moluscos; además interpretar los gráficos de la librería gglot.
Base de datos “BD_Salinidad”
load("C:/Users/Aleja/Desktop/Semestres/Semestre V 2020-2/Bioestadistica/Corte 1/Parcial 1_MosqueraMariah/Parcial 1/Salinidad.RData")
BD_Salinidad=Salinidad
head(BD_Salinidad)
## Biomasa pH Salinidad Zinc Potasio
## 1 765.280 5.00 33 16.4524 1441.67
## 2 954.017 4.70 35 13.9852 1299.19
## 3 827.686 4.20 32 15.3276 1154.27
## 4 755.072 4.40 30 17.3128 1045.15
## 5 896.176 5.55 33 22.3312 521.62
## 6 1422.836 5.50 33 12.2778 1273.02
Esta base de datos se compone de 5 variables: la producción de biomasa (gr) de una planta forrajera y caractrísticas del suelo (pH, Salinidad, Zinc y Potasio); además 45 muestras representativas de diferentes ambientes.
A partir de esta información se realizará un análisis exploratorio univariado para cada característica.
Exploratorio Univariado Salinidad
boxplot(BD_Salinidad,col="pink",main="Variablildad de datos \n (SALINIDAD)")
summary(BD_Salinidad)
## Biomasa pH Salinidad Zinc
## Min. : 369.8 Min. :3.200 Min. :24.00 Min. : 0.2105
## 1st Qu.: 654.8 1st Qu.:3.450 1st Qu.:27.00 1st Qu.:13.9852
## Median : 991.8 Median :4.450 Median :30.00 Median :19.2420
## Mean :1082.2 Mean :4.609 Mean :30.27 Mean :17.8308
## 3rd Qu.:1346.9 3rd Qu.:5.350 3rd Qu.:33.00 3rd Qu.:22.6758
## Max. :2337.3 Max. :7.450 Max. :38.00 Max. :31.2865
## Potasio
## Min. : 350.7
## 1st Qu.: 527.0
## Median : 773.3
## Mean : 797.4
## 3rd Qu.: 954.1
## Max. :1441.7
Gráfico 1. Diagrama de cajas para cada característica independiente:
Diag.Box.Biomasa: La producción de biomasa de una planta forrajera presenta un rango entre 369.8 - 2337.3 gramos, un promedio de 1082.2 gramos y una mediana de 991.8 gramos. Este diagrama presenta una asimetría positiva (x̄> Me) y no presenta datos atípicos. Además, el 75% de los datos se encuentra igual o inferiores a 1346.9 gramos. Este diagrama presenta mayor variabilidad de los datos con respecto a los demás.
Diag.Box.pH: La concentración de pH presenta un rango entre 3.2- 7.45, un promedio de 4.609 y una mediana de 4.450. Aquí se presenta una asimetría positiva (x̄> Me) leve, que indica también que el 75% de los datos tienen un pH igual o menor a 5.35, por lo tanto, la mayoría de las muestras son ácidas y realmente muy pocas son neutras y básicas. A parte, hay poca variabilidad en los datos de pH.
Diag.Box.Salinidad: La concentración de Sal en el suelo presenta un rango entre 24- 38, un promedio de 30.27 y una mediana de 30.00. En el diagrama no se nota bien la simetría, sin embargo, la media y la mediana son similares y se aproximan(≈) a 30, por lo que, los datos tienden a una distribución simétrica que tiene poca variabilidad en los datos.
Diag.Box.Zinc: La concentración de Zinc en el suelo presenta un rango entre 0.2105 - 31.2865, un promedio de 17.8308 y una mediana de 19.2420. En este caso hay una asimetría negativa (x̄ <Me) que no es representativo en el diagrama. El 50% de los datos son menor o igual a 19.2420. Por último, los datos tienen muy poca variabilidad, no obstante, presenta un dato atípico.
Diag.Box.Potasio: La concentración de potasio en el suelo tiene un rango entre 350.7-1441.7, un promedio de 797.4 y una mediana de 773.3. Este diagrama presenta una asimetría positiva (x̄ >Me), asimismo, gran variabilidad de sus datos. El 75% de los datos son ≤ 954.1, mientras que el 50% son ≤ 773.3 y el 25% son ≤ 527.0.
En conclusión, la producción de biomasa y la concentración de potasio tienen mayor variabilidad en sus datos.
Exploratorio bivariado SALINIDAD
A continuación, se realizará un análisis exploratorio bivariado que permita conocer como es la relación entre la biomasa y las covariables pH, Salinidad, Zinc y Potasio.
library(ggplot2)
require(ggplot2)
Diag_Puntos_1=ggplot(data=BD_Salinidad, aes(x=pH,y=Biomasa))+geom_point(data=BD_Salinidad,mapping= aes(x=pH, y= Biomasa, col= "red"))+geom_smooth(se=F)+theme_bw()
Diag_Puntos_1
Diag_Puntos_2=ggplot(data=BD_Salinidad, aes(x=Salinidad,y=Biomasa))+geom_point(data=BD_Salinidad,mapping= aes(x=Salinidad, y= Biomasa, col= "red"))+geom_smooth(se=F)+theme_bw()
Diag_Puntos_2
Diag_Puntos_3=ggplot(data=BD_Salinidad, aes(x=Zinc,y=Biomasa))+geom_point(data=BD_Salinidad,mapping= aes(x=Zinc, y= Biomasa, col= "red"))+geom_smooth(se=F)+theme_bw()
Diag_Puntos_3
Diag_Puntos_4=ggplot(data=BD_Salinidad, aes(x=Potasio,y=Biomasa))+geom_point(data=BD_Salinidad,mapping= aes(x=Potasio, y= Biomasa, col= "red"))+geom_smooth(se=F)+theme_bw()
Diag_Puntos_4
En conclusión, los diagramas de puntos nos permiten visualizar la relación que hay entre dos variables, en este caso, las variables que tiene mayor relación con la producción de biomasa de una planta forrajera son el pH y el Zinc. Si se desea aumentar la producción de biomasa de una planta forrajera lo ideal sería aumentar el pH y dismunuir la concentración del Zinc.
Base de datos “BD_Moluscos”
load("C:/Users/Aleja/Desktop/Semestres/Semestre V 2020-2/Bioestadistica/Corte 1/Parcial 1_MosqueraMariah/Parcial 1/moluscos.RData")
head(BD_moluscos)
## # A tibble: 6 x 3
## c_agua molusco cons_o
## <dbl> <chr> <dbl>
## 1 100 A 7.16
## 2 100 A 8.26
## 3 100 A 6.78
## 4 100 A 14
## 5 100 A 13.6
## 6 100 A 11.1
Esta base de datos presenta tres variables: tipos de moluscos (A y B), concentración de agua de mar (100%, 75% y 50%) y consumo de oxigeno (cons_o) que se midió por la proporción de O2 por peso seco del molusco.
A continuación se hará un análisis exploratorio para poder interpretar cada característica.
Exploratorio Univariado MOLUSCOS
require(ggplot2)
BD_moluscos$c_agua=as.factor(BD_moluscos$c_agua)
Diag_bar_1=ggplot(BD_moluscos,aes(x=molusco))+geom_bar(fill="violet")+ylab("Frecuencia")+ xlab("Molusco")+ggtitle("Tipos de molusco")+theme_classic()
Diag_bar_1
table(BD_moluscos$molusco)
##
## A B
## 24 24
Diag_bar_1. El diagrama de barra indica que se trabajó con el mismo número de individuos por cada tipo de molusco (A y B) para hacer un muestreo balanceado y comparativo. Cada tipo de moluscos cuenta con 24 individuos.
Diag_bar_2=ggplot(BD_moluscos,aes(x=c_agua))+geom_bar(fill="lightblue")+ylab("Frecuencia")+ xlab(" Concentración de agua de mar (%)")+ggtitle(" Diagrama de barras: \n Concentración de agua de mar (%) ")+theme_classic()
Diag_bar_2
table(BD_moluscos$c_agua)
##
## 50 75 100
## 16 16 16
Diag_bar_2. Este diagrama de barras al igual que el anterior presenta un muestreo balanceado, cuenta con 16 muestras totales por cada porcentaje de concentración (50%,70%,100%), por lo cual, 8 individuos de cada tipo de molusco (A y B) fueron sometidos a las concentraciones nombradas.
Diag_bar_3= ggplot(BD_moluscos,aes(x=cons_o))+geom_histogram(color="darkblue", fill="lightblue")+theme_classic()+ggtitle(" Consumo de oxígeno: Proporción de O2 x\n unidad de peso seco del molusco.") + xlab("Consumo de oxígeno") + ylab("Frecuencia")
Diag_bar_3
summary(BD_moluscos$cons_o)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.800 6.312 9.700 9.305 11.232 18.800
Diag.bar.3. El consumo de oxigeno presenta un rango entre 1.8 – 18.8 unidades, un promedio de 9.305 unidades y una mediana de 9.7 unidades . Este diagrama presenta una asimetría negativa (x̄ <Me) y contiene datos atípicos. El 50% de los datos son igual o inferiores a 9.7 unidades. El consumo de oxigeno se encuentra con la frecuencia más alta (6) cuando está en 10 unidades.
Exploratorio bivariado MOLUSCOS
Se realizará un análisis exploratorio bivariado para definir si hay alguna relación entre la concentración de agua de mar y el consumo de oxigeno depentiendo a el tipo de molusco.
Diag_Box_1=ggplot(data = BD_moluscos, aes(y=cons_o, x=c_agua, fill=molusco))+ xlab("Concentración de agua de mar (%)") + ylab("Consumo de oxígeno")+geom_boxplot()+facet_grid(~c_agua)
Diag_Box_1
Diag.Box.1: El diagrama de cajas muestra la consumo de oxígeno y concentración de agua de mar (50%,70%,100%) con respecto a los dos tipos de moluscos (A y B).
Conclusiones:
.