Punto 1 - Datos Salinidad
Se obtienen 45 muestras de una planta forrajera en diferentes ambientes. Se mide la Biomasa (en gramos) y las variables del suelo como pH, Salinidad, Zinc y Potasio. A partir de estas variables se desea hace un análisis exploratorio de estas variables.
Seccion a: Se realiza un analisis exploratorio univariado de cada variable y se realiza una interpretación de los resultados.
load("C:/Users/Usuario/Desktop/Universidad/semestre 5/Bioestadistica/Parcial 1/YDRAY-Salinidad.RData")
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
##Medidas de tendencia Biomasa
mean(Salinidad$Biomasa)
## [1] 1082.173
median(Salinidad$Biomasa)
## [1] 991.829
sd(Salinidad$Biomasa)
## [1] 546.2874
max(Salinidad$Biomasa)
## [1] 2337.326
min(Salinidad$Biomasa)
## [1] 369.823
De la variable Biomasa se puede identificar que el promedio de la muestra es de 1082 gramos, su mediana es 991 gramos, la desviacion estandar de la muestra es de 546 gramos y sus valores maximos y minimos son 2337 gramos y 369 gramos respectivamente. Según lo anterior, se puede notar que la desviación entre los valores no es de demasiada consideración y se evidencia una gran diferencia entre los valores mínimos y máximos.A continuación una representación gráfica de esta:
##Grafica de Biomasa
hb = ggplot(data = Salinidad,aes(x = Biomasa))+geom_histogram(fill="blue",color="black", bins= 25)+theme_linedraw()+xlab("Biomasa producida en gramos")+ylab("Cantidad de Plantas")+ggtitle("Gráfica Biomasa")
ggplotly(hb)
De la gráfica para biomasa se observa que gran parte de los datos se ubican en el intervalo de 500 y 1500 gramos, que los valores cercanos a 500 y a 1000 gramos presentan la misma cantidad de plantas y tienen el mayor número de estas contando con 4 individuos cada una y, por último, que los valores cercanos a 2000 gramos de biomasa son los que tienen menores representantes con solo un individuo. Ahora bien, son muy pocas las plantas cuya producción de biomasa supera los 1500 gramos y una explicación a esto puede ser la presencia de un mineral en el suelo que les permita incrementar notablemente la producción de biomasa o puede considerarse que en las condiciones de estas plantas, las caracteristicas de pH, Salinidad, Zinc y Potasio sean las más ideales para un optimo crecimiento.
##Medidas de tendencia pH
mean(Salinidad$pH)
## [1] 4.608889
median(Salinidad$pH)
## [1] 4.45
sd(Salinidad$pH)
## [1] 1.254731
max(Salinidad$pH)
## [1] 7.45
min(Salinidad$pH)
## [1] 3.2
Las medidas de tendecia de la variable de pH muestran que el suelo tiene un promedio de pH en 4.6, la mediana es 4.45, la desviación estándar de los valores es de 1.25 y los valores máximos y mínimos son de 7.45 y 3.2 respectivamente. Según lo anterior, lo más relevante es reconocer que el suelo recolectado tiende a ser ácido, luego, por la desviación estandar se puede reconocer que estos valores en las muestras sí tuvieron valores más fluctuantes, como lo que se puede ver en los resultados de los valores máximos y mínimos.
##Gráfica pH
hpH = ggplot(data = Salinidad,aes(x = pH))+geom_histogram(fill="light green",color="black", bins= 25)+theme_linedraw()+xlab("Nivel de pH")+ylab("Cantidad de muestras de suelo")+ggtitle("Gráfica pH")
ggplotly(hpH)
En la gráfica para el nivel de pH se observa que hay una gran concentración de muestras en los niveles más bajos de pH, pero aun así, la mayoría de las muestras están ubicadas en el intervalo comprendido entre 4 y 6, con un total de 24. Adicional a esto, a pesar de que 40 de las 45 muestras están por debajo de un pH de 6, hay 5 muestras por encima de pH 7, lo que las hacer alcalinas. Según lo anterior y siguiendo lo mostrado por las medidas de tendencia, la mayoría del suelo es de pH ácido.
##Medidas de tendencia salinidad
mean(Salinidad$Salinidad)
## [1] 30.26667
median(Salinidad$Salinidad)
## [1] 30
sd(Salinidad$Salinidad)
## [1] 3.719726
max(Salinidad$Salinidad)
## [1] 38
min(Salinidad$Salinidad)
## [1] 24
Para la variable de salinidad se presenta una media de 30.26 gramos, una mediana de 30 gramos, una desviación estándar de 3.71 gramos y valores máximos y mínimos de 38 gramos y 24 gramos respectivamente. Según estos datos, el suelo muestra la tendecia a no ser tan salado y hay poca variación en los niveles de salinidad de las muestras tomadas, como además se entiende por los valores máximos y mínimos obtenidos.
##Gráfica Salinidad
hs= ggplot(data = Salinidad,aes(x = Salinidad))+geom_histogram(fill="pink", color="black",bins = 25)+theme_linedraw()+xlab("Salinidad")+ylab("Cantidad de muestras de suelo")+ggtitle("Gráfica Salinidad")
ggplotly(hs)
De la gráfica de salinidad se puede observar que la mayoría de las muestras de suelo presentan una salinidad cercana a 30 gramos con 9 muestras. Sobre la distribución de los datos, la mayoría se ubican por debajo de los 30 gramos de salinidad, con 28 muestras entre esos valores. Según lo anterior, se sostiene que por los resultados de las muestras, el suelo no tiene tendencia a ser muy salado y la mediana confirma el valor que más se obtuvo.
##Medidas de tendencia Zinc
mean(Salinidad$Zinc)
## [1] 17.8308
median(Salinidad$Zinc)
## [1] 19.242
sd(Salinidad$Zinc)
## [1] 8.274169
max(Salinidad$Zinc)
## [1] 31.2865
min(Salinidad$Zinc)
## [1] 0.2105
Según las medidas de tendencia, se puede observar de la variable del zinc que el promedio es de 17.83 gramos, prácticamente 18 gramos, la mediana es de 19 gramos, la desviación estándar es de 8 gramos y los valores máximos y mínimos son de 31 gramos y 0.21 gramos respectivamente. De lo anterior, se puede resaltar que el valor mínimo está muy cercano a cero, a diferencia de las otras caracteristicas del suelo.
##Gráfica de Zinc
hz= ggplot(data = Salinidad,aes(x=Zinc))+geom_histogram(fill="yellow", color="black",bins = 25)+theme_linedraw()+xlab("Nivel de zinc")+ylab("Cantidad de muestras de suelo")+ggtitle("Gráfica Zinc")
ggplotly(hz)
De la gráfica sobre el zinc, se puede observar que 5 de las muestras de suelo no presentaban presencia de Zinc en su contenido mineral, lo cual es importante, porque solo se dan tantas muestras en un mismo nivel de zinc para un valor de 19.42, de resto los demás niveles de zinc presentan menos concentración de muestras. Adicional a esto, la mayoría de los datos se concentran en el intervalo entre 9 a 25, en donde casi todos hay varias muestras en un mismo nivel de zinc. Finalmente, el último grupo de muestras se encuentra entre los niveles de 27 a 31.
##Medidas de tendencia Potasio
mean(Salinidad$Potasio)
## [1] 797.3778
median(Salinidad$Potasio)
## [1] 773.3
sd(Salinidad$Potasio)
## [1] 297.576
max(Salinidad$Potasio)
## [1] 1441.67
min(Salinidad$Potasio)
## [1] 350.73
De las medidas de tendencia para la variable de potasio se puede observar un promedio de 797 gramos, una mediana de 773 gramos, una desviación estándar de 297 gramos, un valor máximo de 1441 gramos y un valor mínimo de 350 gramos. A partir de estos, se nota que la desviación estándar no es demasadiado notoria y se resalta una gran diferencia entre el valor máximo y mínimo de los niveles de potasio, siendo esta la más grande entre las características del suelo estudiado.
##Gráfica Potasio
hP= ggplot(data = Salinidad,aes(x=Potasio))+geom_histogram(fill="orange",color="black",bins = 25)+theme_linedraw()+xlab("Nivel de potasio")+ylab("Cantidad de muestras de suelo")+ggtitle("Gráfico Potasio")
ggplotly(hP)
De la gráfica para los niveles de potasio, resalta que entre los niveles de 500 a 545 de concentración del potasio, se ubican 13 muestras, la mayor cantidad de muestras por concentración de potasio. A diferencia de las demás gráficas para las características del suelo, en la presentada para el potasio, se ve un comportamiento más distribuido, donde no hay grandes agrupaciones de datos, sino que desde el valor mínimo al máximo se dispersan las muestras.
Sección B: Se realiza un análisis bivariado entre la producción de biomasa y las características del suelo y se analizan los resultados
##Relación Biomasa y pH
pBh=ggplot(data = Salinidad,aes(x=pH, y=Biomasa))+geom_point(col="brown")+theme_minimal()+xlab("pH")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica de la relación entre pH y la biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBh)
La presente gráfica muestra la relación bivariada entre la producción de biomasa en gramos por parte de la planta forrajera y los niveles de pH encontrados en las muestras de suelo. Se ve una concentración de datos hacia la parte inferior izquierda, lo que describe que muchas plantas están en suelos ácidos y, a su vez, tienen niveles bajos de biomasa, pero se nota, que al aumentar el pH, la cantidad de biomasa aumenta, aunque no son muchas las muestras que se ubican en zonas de suelos neutros o alcalinos, por lo cual, no son muchas las plantas forrajeras que tienen altos niveles de producción de biomasa. Se concluye, que hay más biomasa en gramos en los suelos más alcalinos o neutros y que está relación muestra un comportamiento directo.
##Relación Biomasa y salinidad
pBs=ggplot(data = Salinidad,aes(x = Salinidad, y = Biomasa))+geom_point(col="black")+theme_minimal()+xlab("Salinidad")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica de Relación entre salinidad y biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBs)
En esta gráfica se muestra la relación entre salinidad y la cantidad de biomasa, en la cual, no se evidencia una concentración o tendencia hacia un valor de salinidad del suelo, pues se ven las mismas cantidades de biomasa para diferentes niveles de salinidad. De lo anterior, se concluye que no hay relación entre el nivel de salinidad del suelo y la producción de biomasa por parte de las plantas forrajeras.
##Relación Biomasa y Zinc
pBz=ggplot(data = Salinidad,aes(x=Zinc,y=Biomasa))+geom_point(col="dark blue")+theme_minimal()+xlab("Zinc")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica de la relación entre zinc y biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBz)
En esta gráfica se relaciona la producción de biomasa por las plantas forrajeras y el nivel de zinc en el suelo de la muestra. El efecto del zinc como inhibidor de la producción de biomasa se observa, pues a niveles más altos, las plantas muestran poca biomasa, pero al desaparecer el zinc estás adquieren más biomasa, esto evidenciado porque en el suelo con niveles de zinc cercanos a cero, la producción de biomasa por parte de las plantas forrajeras aumentó alcanzando valores mayores de 2000 gramos, los más altos de los registrados. Se puede concluir entonces, que esta relación es inversa.
##Relación Biomasa y Potasio
pBp=ggplot(data = Salinidad,aes(x=Potasio,y=Biomasa))+geom_point(col="purple")+theme_minimal()+xlab("Potasio")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica relación entre potasio y biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBp)
La gráfica muestra la cantidad de biomasa producida y el nivel de potasio de cada muestra de suelo. Según lo anterior, no se observa relación entre el potasio presente en el suelo y la cantidad de biomasa producida por plantas forrajeras, pues como se ve, no hay preferencia por cantidad de potasio para la cantidad de biomasa, incluso hay situaciones donde en cantidades similares de potasio, las plantas forrajeras pueden mostrar producción de biomasa completamentes diferentes.
Conclusión: Según los análisis bivariados realizados anteriormente, parece que solo el pH y el Zinc intervienen en la producción de biomasa por parte de este tipo de plantas. Observando dos tipos de relación; una relación directa entre el nivel de pH y la producción de biomasa y una relación inversa entre la concentración del Zinc y la producción de biomasa.
Punto 2 - Datos Moluscos
Dos moluscos (A y B) son sometidos a distintas concentraciones de agua de mar (100%,75%,50% y se observó el consumo de oxígeno midiendo la proporción de este por unidad de peso seco del molusco
Sección a: Se realiza un análisis exploratorio univariado para cada una de las variables y se analizan los resultados.
load("C:/Users/Usuario/Desktop/Universidad/semestre 5/Bioestadistica/Parcial 1/YDRAY-moluscos.RData")
require(ggplot2)
require(plotly)
##Medidas de tendencia Concentración de agua de mar
mean(BD_moluscos$c_agua)
## [1] 75
median(BD_moluscos$c_agua)
## [1] 75
max(BD_moluscos$c_agua)
## [1] 100
min(BD_moluscos$c_agua)
## [1] 50
length(BD_moluscos$c_agua)
## [1] 48
De las medidas de tendecia se puede observar que la media de la concentración de agua de mar es 75%, al igual que la media, el valor máximo de concentración de agua de mar es del 100%, mientras que el valor mínimo es del 50%. Lo anterior, concuerda con las condiciones iniciales antes expresadas y todo esto para un total de 48 datos.
##Gráfica Concentración de agua de mar
hcm=ggplot(data = BD_moluscos,aes(x=c_agua))+geom_histogram(fill="light green",col="black",bins = 25)+theme_linedraw()+xlab("Concentración de agua de mar en porcentajes")+ylab("Cantidad de muestras de agua tomadas")+ggtitle("Gráfica de la concentración de agua de mar")
ggplotly(hcm)
Según la gráfica, se observa que para todas las concentraciones de agua de mar, se tomaron la misma cantidad de muestras (16), lo cual es importante para no tener sesgos en los resultados y, posteriormente, en los análisis. Adicional, la gráfica complementa los resultados de la medidas de tendencia en que para la concentracion de agua de mar se estandarizaron los porcentajes en tres medidas: 50%, 75% y 100%.
##Gráfica Moluscos
hm=ggplot(data = BD_moluscos,aes(x=molusco))+geom_bar(fill="Dark orange",col="black")+theme_linedraw()+xlab("Tipo de Molusco")+ylab("Cantidad de molusco")+ggtitle("Gráfica Moluscos")
ggplotly(hm)
En la gráfica, se observa la misma cantidad de moluscos tanto del tipo A como del tipo B con 24 muestras en cada uno para un total de 48. La misma cantidad de individuos en cada tipo es importante para evitar sesgos al momento de comparar los resultados entre ambos grupos, porque no habrá uno con más representantes que el otro. Es una situación similar a la presentada en la concentración de agua de mar.
##Medidas de tendencia consumo oxígeno
mean(BD_moluscos$cons_o)
## [1] 9.304792
median(BD_moluscos$cons_o)
## [1] 9.7
sd(BD_moluscos$cons_o)
## [1] 3.682652
max(BD_moluscos$cons_o)
## [1] 18.8
min(BD_moluscos$cons_o)
## [1] 1.8
De las medidas de tendencia para el consumo de oxígeno, se observa que el promedio del consumo es de 9.3%, la mediana es 9.7%, se presenta una desviación estándar de 3.68%, el valor máximo registrado es de 18.8% y el valor mínimo registrado es 1.8%. Según lo anterior, la desviación estándar en estos datos es considerable por la variabilidad de los resultados y entre los valores máximo y mínimo hay una diferencia notable.
##Gráfica consumo oxígeno
ho2=ggplot(data = BD_moluscos,aes(x=cons_o))+geom_histogram(fill="cyan",col="black",bins = 25)+theme_linedraw()+xlab("Oxígeno consumido")+ylab ("Cantidad de muestras de agua tomadas")+ggtitle("Gráfica consumo oxígeno")
ggplotly(ho2)
Lo que más resalta en la gráfica, es que el mayor consumo de oxígeno es 9.9% en 8 muestras y, en concordancia, se observa que la gran mayoría de los datos se encuentran concentrados en el intervalo de 8% a 12%, con un total de 20 datos. Adicional a esto, existen moluscos que consumen oxígeno por encima de un 17%, incluso el que más consume da un 19% de oxígeno utilizado, mientras que hay otros que consumen menos de 5% de oxígeno, uno siendo tan bajo como el 2%. Sin embargo, estos datos no son un grupo mayoritario, pero casos particulares que se contrastan con la mayoría.
Sección B: Se realiza un análisis exploratorio bivariado entre el consumo de oxígeno y las concentraciones de agua de mar, a partir de las conclusiones se desea saber si estas tambien son las mismas para cada tipo de molusco.
##Relación Concentración de agua de mar y consumo de oxígeno
pco=ggplot(BD_moluscos,aes(x=c_agua,y=cons_o, group= 2))+geom_boxplot(col="black",fill="brown")+theme_bw()+xlab("Concentración de agua de mar en porcentajes")+ylab("Consumo de oxígeno")+ggtitle("Gráfica de relación entre la concentración de agua y el consumo de oxígeno")+facet_grid(molusco~c_agua)
pco
Según la gráfica, se puede observar que cuando la concentración de agua de mar corresponde a un 50%, el consumo de oxígeno se ve incrementado a porcentajes entre el 10% y 15%. Luego, al aumentar la concentración de agua de mar a 75%, el consumo de oxígeno se ve reducido a valores entre 5% a 10%. Sin embargo, al volver a incrementar la concentración de agua de mar hasta el 100%, el consumo de oxígeno sube ligeramente, pero no se aleja mucho del consumo de oxígeno visto a 75%. A partir de esto, se concluye que no se muestra una relación directa entre el consumo de oxígeno y la concentración de agua de mar, además de que los comportamientos de los tipos de molusco A y B, no fueron marcadamente desemejantes, por lo contrario fueron similares en general.
##Relación Concentración de agua de mar y molusco
bmc=ggplot(BD_moluscos,aes(x=molusco,y=cons_o,fill=molusco))+geom_boxplot()+theme_bw()+xlab("Tipo de molusco")+ylab("consumo de oxígeno")+ggtitle("Relación entre el tipo de molusco y consumo de oxígeno")
ggplotly(bmc)
De la gráfica de cajas y bigotes se observa que la mediana del consumo de oxígeno en los moluscos del tipo A es mayor, que la mediana en el consumo de oxígeno en los moluscos del tipo B. Además, los valores generales para el consumo de oxígeno de los moluscos tipo A, son un poco mayores a los vistos para los moluscos tipo B. Más allá, también se ve que la caja azul de los moluscos tipo B tiene más rango de valores, mostrando que estos datos varian más, que en el caso de los moluscos del tipo A, o sea que tienen un consumo de oxígeno más variable. Se concluye entonces que, en ambos casos los resultados son muy similares, siendo levemente más restringidos y mayores en el tipo A, pero habiendo en tipo B más variabilidad.