Punto 1
Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar; 100%, 75% y 50%. Para cada concentración se observó el consumo de oxígeno mediendo la proporción de O2 por unidad de peso seco del molusco.
Sección a: Realizar un análisis exploratorio para conocer cómo es el consumo de oxígeno en las distintas concetraciones de agua de mar y si estás conclusiones son las mismas para cada tipo de molusco.
load("C:/Users/Usuario/Desktop/Universidad/semestre 5/Bioestadistica/bioestad parcial 2/YDRAY-moluscos.RData")
require(ggplot2)
## Loading required package: ggplot2
require(plotly)
## Loading required package: plotly
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:stats':
##
## filter
## The following object is masked from 'package:graphics':
##
## layout
require(agricolae)
## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 4.1.1
##Relación Concentración de agua de mar y consumo de oxígeno
pco=ggplot(BD_moluscos,aes(x=c_agua,y=cons_o, group= 2))+geom_boxplot(col="black",fill="brown")+theme_bw()+xlab("Concentración de agua de mar en porcentajes")+ylab("Consumo de oxígeno")+ggtitle("Gráfica de relación entre la concentración de agua de mar y el consumo de oxígeno")+facet_grid(molusco~c_agua)
pco
Según la gráfica, se puede observar que cuando la concentración de agua de mar corresponde a un 50%, el consumo de oxígeno para ambos tipos de moluscos se ubica entre el 10% y 15%, habiendo más variación en los datos para el molusco B. Luego, al aumentar la concentración de agua de mar a 75%, el consumo de oxígeno se reduce a valores entre 5% a 10% para ambos tipos de moluscos y la variación de sus datos es similar. Sin embargo, cuando se incrementa la concentración de agua de mar al 100%, el consumo de oxígeno para ambos tipos de moluscos aumenta e incrementa la variación entre los datos registrados. A partir de esto, se concluye que no se muestra una relación directa entre el consumo de oxígeno y la concentración de agua de mar para los tipos de moluscos, además de que los comportamientos de los tipos de molusco A y B no fueron marcadamente diferentes, por lo contrario fueron similares en general.
Sección B: Estimar el modelo de diseño experimental el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de moluscos sobre el consumo de oxígeno. Interpretar los coeficientes del modelo, el valor p y realizar un postanova de ser necesario.
#X= concentración del agua de mar
#y= Consumo de oxígeno
BD_moluscos$c_agua=as.factor(BD_moluscos$c_agua)
mod_a=lm(cons_o~c_agua,data=BD_moluscos)
summary(mod_a)
##
## Call:
## lm(formula = cons_o ~ c_agua, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.8706 -2.0445 -0.4766 2.2494 6.5494
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 12.2506 0.7515 16.302 < 2e-16 ***
## c_agua75 -5.2581 1.0627 -4.948 1.09e-05 ***
## c_agua100 -3.5794 1.0627 -3.368 0.00156 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.006 on 45 degrees of freedom
## Multiple R-squared: 0.3621, Adjusted R-squared: 0.3338
## F-statistic: 12.77 on 2 and 45 DF, p-value: 4.043e-05
anova(mod_a)
## Analysis of Variance Table
##
## Response: cons_o
## Df Sum Sq Mean Sq F value Pr(>F)
## c_agua 2 230.82 115.408 12.773 4.043e-05 ***
## Residuals 45 406.59 9.035
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
compara=LSD.test(mod_a,"c_agua")
compara
## $statistics
## MSerror Df Mean CV t.value LSD
## 9.03543 45 9.304792 32.30485 2.014103 2.14048
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none c_agua 3 0.05
##
## $means
## cons_o std r LCL UCL Min Max Q25 Q50 Q75
## 100 8.67125 3.000940 16 7.157702 10.184798 3.68 14.0 6.140 8.595 10.5750
## 50 12.25062 3.199643 16 10.737077 13.764173 6.38 18.8 10.085 11.455 14.5000
## 75 6.99250 2.804093 16 5.478952 8.506048 1.80 13.2 5.200 6.430 8.7675
##
## $comparison
## NULL
##
## $groups
## cons_o groups
## 50 12.25062 a
## 100 8.67125 b
## 75 6.99250 b
##
## attr(,"class")
## [1] "group"
Según el modelo de diseño de experimentos, la concentración de agua de mar de 50% es tomada como el intercepto, donde hay un 12.25% de concentración de oxígeno en este valor. Posterior, cuando se cambia de 50% a 75% de concentración de agua de mar, la cantidad de concentración de oxígeno se reduce en un (-)5.26%. Más allá, cuando del 50% se pasa al 100% de concentración de agua de mar, la concentración de oxígeno se reduce en un (-)3.58%. De este modelo, podemos concluir que la concentración de oxígeno se reduce tanto en 75% como en 100%, pero baja más en el escenario de 75%.
Seguidamente, en el análisis ANOVA se obtiene que hay un efecto significativo de la concentración de agua de mar (Valor P), queriendo decir que hay una diferencia en la concentración de oxígeno entre las distintas concentraciones de agua de mar. Por esto, se realiza una prueba de comparación multiple Postanova, en la cuál se comparan los límites de los intervalos de confianza para cada categoría y así ver que tan significativa es la diferencia entre ellos. Para la concentración de agua de mar al 50% se tiene que es significativamente diferente con respecto a las concentraciones de agua de mar del 75% y 100%, pero entre estas dos concentraciones no hay diferencia significativa pues sus intervalos de confianza se solapan.
#X= Tipo de molusco
#y= Consumo de oxígeno
mod_b=lm(cons_o~molusco,data=BD_moluscos)
summary(mod_b)
##
## Call:
## lm(formula = cons_o ~ molusco, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8092 -2.8254 -0.2604 1.7930 9.0908
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 10.0004 0.7459 13.408 <2e-16 ***
## moluscoB -1.3913 1.0548 -1.319 0.194
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.654 on 46 degrees of freedom
## Multiple R-squared: 0.03644, Adjusted R-squared: 0.01549
## F-statistic: 1.74 on 1 and 46 DF, p-value: 0.1937
anova(mod_b)
## Analysis of Variance Table
##
## Response: cons_o
## Df Sum Sq Mean Sq F value Pr(>F)
## molusco 1 23.23 23.227 1.7396 0.1937
## Residuals 46 614.18 13.352
Ahora bien, según el modelo de diseño de experimentos realizado para el tipo de molusco y la concentración de oxígeno registrado, se toma el tipo de molusco A como el intercepto, donde hay un 10% de concentración de oxígeno para este. Posterior, cuando se cambia del tipo A al tipo B de molusco, la cantidad de concentración de oxígeno registrado se reduce en un (-)1.39%. A partir de esto, podemos concluir que la concentración de oxígeno para los tipos de moluscos no varía demasiado entre sí, solo hay una diferencia leve. Seguidamente se realizó el análisis ANOVA, donde se obtuvo que no hay un efecto significativo del tipo de molusco (Valor P), queriendo decir que no hay una diferencia en la concentración de oxígeno relevante entre los distintos tipos de molusco. Por lo anterior, no se realizó la prueba de comparación multiple Postanova.
Punto 2
De una planta forrajera se obtuvieron 45 muestras en diferentes ambientes para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr). Cada muestra se estimó la biomasa (y) y se registraron las características (x) del suelo en el que crecía (pH, salinidad, Zinc y potasio)
Sección a: Realizar un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta
Para analizar las correlaciones, se presentan una serie de gráficas en las cuales se muestran las relaciones entre las covariables y la respuesta.
load("C:/Users/Usuario/Desktop/Universidad/semestre 5/Bioestadistica/bioestad parcial 2/YDRAY-Salinidad.RData")
##Relación Biomasa y pH
pBh=ggplot(data = Salinidad,aes(x=pH, y=Biomasa))+geom_point(col="brown")+theme_minimal()+xlab("pH")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica de la relación entre pH y la biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBh)
Primero, en esta gráfica se muestra la relación entre el pH de las muestras del suelo y la biomasa producida por la planta forrajera. Viendo el comportamiento de esta se puede notar una tendencia de los datos hacia la parte inferior izquiera, lo que evidencia que gran parte de las muestras tienen un pH ácido y poca cantidad de biomasa. Seguidamente, se nota que al aumentar el nivel de pH, la cantidad de biomasa producida por la planta aumenta. De la gráfica se concluye que hay una relación entre el pH y la biomasa que se da de manera directa, pues a niveles más ácidos, menos cantidad de biomasa es producida, mientras que a niveles más neutros y alcalinos del suelo, mayor cantidad de biomasa es producida por la planta.
##Relación Biomasa y salinidad
pBs=ggplot(data = Salinidad,aes(x = Salinidad, y = Biomasa))+geom_point(col="black")+theme_minimal()+xlab("Salinidad")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica de Relación entre salinidad y biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBs)
En segundo lugar, está la gráfica para ver la relación entre la salinidad del suelo y la biomasa producida por la planta. Para este caso no se evidencia una tendencia para los datos, incluso se registra que para un mismo nivel de salinidad, las plantas pueden generar diferentes cantidades de biomasa. Se concluye entonces que no hay una relación entre el nivel de salinidad y la biomasa producida.
##Relación Biomasa y Zinc
pBz=ggplot(data = Salinidad,aes(x=Zinc,y=Biomasa))+geom_point(col="dark blue")+theme_minimal()+xlab("Zinc")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica de la relación entre zinc y biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBz)
Seguidamente, en esta gráfica se ve la relación entre el nivel de zinc del suelo y la cantidad de biomasa producida por la planta. Hay una tendencia de los datos hacia la parte derecha, mostrando que gran parte de las muestras poseen alta cantidad de zinc, pero a su vez la cantidad de biomasa que produce la planta disminuye a lo que se aumenta este mineral. Unos pocos datos se ubican a la izquierda, en valores de zinc prácticamente cero, pero estos mismos registran la mayor cantidad de biomasa producida. Se concluye entonces que entre esta covariable y la respuesta hay una relación inversa.
##Relación Biomasa y Potasio
pBp=ggplot(data = Salinidad,aes(x=Potasio,y=Biomasa))+geom_point(col="purple")+theme_minimal()+xlab("Potasio")+ylab("Producción de Biomasa en gramos")+ggtitle("Gráfica relación entre potasio y biomasa producida")+geom_smooth(method = "loess", formula = y~x)
ggplotly(pBp)
Posteriormente, se tiene esta gráfica para ver la relación entre el nivel de potasio en el suelo y la cantidad de biomasa producida por la planta. En este caso, no se ve relación entre la covariable y la respuesta, pues sucede que para una misma cantidad de potasio hay varias cantidades de biomasa que producen las plantas.
datos=Salinidad
datos$salinidad
## NULL
attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
##
## Salinidad
cor(Biomasa,datos$Salinidad)
## [1] -0.06657756
cor(Biomasa,pH)
## [1] 0.9281023
cor(Biomasa,Zinc)
## [1] -0.7814625
cor(Biomasa, Potasio)
## [1] -0.07319518
Finalmente, se tiene que de las covariables la más influyente es el pH con respecto a su efecto sobre la cantidad de biomasa que puede producir la planta forrajera, pues entre estos hay una relación directa. Además, también es relevante señalar que para el caso del zinc es influyente, pero con una relación inversa. Para el resto de las covariables se mantiene que no son tan relavantes para la cantidad de producción de biomasa. Todo esto concordando con lo representado en las gráficas
Sección B: Estimar el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interpretar el valor p, los coeficientes de las variables significativas y el coeficiente R2.
mod_c=lm(Biomasa~Salinidad+pH+Zinc+Potasio, data=Salinidad)
summary(mod_c)
##
## Call:
## lm(formula = Biomasa ~ Salinidad + pH + Zinc + Potasio, data = Salinidad)
##
## Residuals:
## Min 1Q Median 3Q Max
## -293.98 -88.83 -9.48 88.20 387.27
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 1492.8076 453.6013 3.291 0.002091 **
## Salinidad -33.4997 8.6525 -3.872 0.000391 ***
## pH 262.8829 33.7304 7.794 1.51e-09 ***
## Zinc -28.9727 5.6643 -5.115 8.20e-06 ***
## Potasio -0.1150 0.0819 -1.404 0.167979
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared: 0.9231, Adjusted R-squared: 0.9154
## F-statistic: 120 on 4 and 40 DF, p-value: < 2.2e-16
Para terminar, en este caso se realizó el modelo de regresión lineal múltiple, por el cual se obtuvo que las variables con mayor participación en el modelo son la salinidad, el pH y el zinc, aunque también la biomasa muestra algo de relevancia, pero el potasio fue la que tuvo una participación muy baja. Adicional, se vio que con respecto a la salinidad se da un (-)33.5% menos de biomasa, para el pH se da un 262.9% más de biomasa y para el zinc se da un (-)28.9% menos de biomasa en la planta forrejera, todos estos datos con respecto al intercepto que es la biomasa. Finalmente, tenemos que estos datos presentan un coeficiente R2 de 0.9 por lo que se pueden considerar como confiables a la hora de representar el caso de estudio.