load("C:/Users/matep/Downloads/YDRAY-moluscos.RData")
load("C:/Users/matep/Downloads/YDRAY-Salinidad.RData")

1A

Exploratorio

#VARIABLE MOLUSCO (CUALITATIVA)

summary(BD_moluscos$molusco)
##    Length     Class      Mode 
##        48 character character
labs=c("A","B"); 
pct=round(table(BD_moluscos$molusco)/sum(table(BD_moluscos$molusco))*100); 
labs=paste(labs, pct);labs=paste(labs, "%", sep = " ") 
pie(table(BD_moluscos$molusco), xlab= "Tipo de moluscos: A y B",labels=labs, main="Diagrama de torta de los moluscos")

DESCRIPCIÓN:

DATOS TOTALES RECOLECTADOS: 45

  • Se realizó un diagrama de torta para poder evidenciar de una forma más sencilla la proporción que se encontró en el experimento de los dos tipos de moluscos, teniendo como resultado, que se utilizó la misma cantidad de cada tipo de estos
mean(BD_moluscos$c_agua, na.rm=TRUE)
## [1] 75
median(BD_moluscos$c_agua, na.rm=TRUE)
## [1] 75
sd(BD_moluscos$c_agua, na.rm=TRUE)
## [1] 20.62842
min(BD_moluscos$c_agua, na.rm=TRUE)
## [1] 50
max(BD_moluscos$c_agua, na.rm=TRUE)
## [1] 100
length(BD_moluscos$c_agua)
## [1] 48
hist(BD_moluscos$c_agua, main = "Histograma de la concentración del agua", xlab = "Concentración del agua", ylab = "Frecuencia", col = "light green")

DESCRIPCIÓN:

-> La variable explorada fue la de CONCENTRACIÓN DEL AGUA DE MAR, donde se obtuvo los siguientes resultados de la media, mediana, desviación estándar, el valor máximo y el valor mínimo registrados.

  • DATOS TOTALES RECOLECTADOS: 48

  • Media: 75 -> Esto quiere decir que 75 es el promedio de los datos de la CONCENTRACIÓN DEL AGUA DE MAR obtenidos.

  • Mediana: 75 -> Esto quiere decir que 75 es el valor que se encuentra en la posición central al haber organizado los datos de la CONCENTRACIÓN DEL AGUA DE MAR obtenidos.

  • Desviación estándar: 20.62842 -> Esto quiere decir que 20.62842 indica que tan dispersos están los datos, en este se evidencia una disperción entre ellos.

  • Valor mínimo: 50 -> Esto quiere decir que 50 es el valor minimo registrado en los datos de la CONCENTRACIÓN DEL AGUA DE MAR obtenidos.

  • Valor máximo: 100 -> Esto quiere decir que 100 es el mayor valor registrado en los datos de la CONCENTRACIÓN DEL AGUA DE MAR.

-> Posteriormente al obtener los resultados, se quiso realizar un histograma, donde se puede observar que:

  • HISTOGRAMA: Este fue empleado para poder evidenciar la frecuencia de los resultados obtenidos de la CONCENTRACIÓN DEL AGUA DE MAR y de esto se puede concluir que:

    • La CONCENTRACIÓN DEL AGUA DE MAR fueron 3, las cuales, según el histograma, se utilizaron las mismas cantidades de cada porcentaje, por lo tanto, se podría pensar que la investigación contaba con un balance en su diseño experimental.
mean(BD_moluscos$cons_o, na.rm=TRUE)
## [1] 9.304792
median(BD_moluscos$cons_o, na.rm=TRUE)
## [1] 9.7
sd(BD_moluscos$cons_o, na.rm=TRUE)
## [1] 3.682652
min(BD_moluscos$cons_o, na.rm=TRUE)
## [1] 1.8
max(BD_moluscos$cons_o, na.rm=TRUE)
## [1] 18.8
length(BD_moluscos$cons_o)
## [1] 48
hist(BD_moluscos$cons_o, main = "Histograma del consumo de oxigeno", xlab = "Consumo de Oxigeno", ylab = "Frecuencia", col = "pink")

boxplot(BD_moluscos$cons_o, main = "Boxplot del consumo de oxigeno", ylab = "Consumo de Oxigeno",col="pink")

DESCRIPCIÓN:

-> La variable explorada fue la de CONSUMO DEL OXIGENO, donde se obtuvo los siguientes resultados de la media, mediana, desviación estándar, el valor máximo y el valor mínimo registrados.

  • DATOS TOTALES RECOLECTADOS: 48

  • Media: 9.304792 -> Esto quiere decir que 9.304792 es el promedio de los datos del consumo de oxigeno obtenidos.

  • Mediana: 9.7 -> Esto quiere decir que 9.7 es el valor que se encuentra en la posición central al haber organizado los datos del consumo de oxigeno obtenidos.

  • Desviación estándar: 3.682652 -> Esto quiere decir que 3.682652 indica que tan dispersos están los datos, en este se evidencia una pequeña disperción entre ellos.

  • Valor mínimo: 1.8 -> Esto quiere decir que 1.8 es el valor minimo registrado en los datos del consumo de oxigeno obtenidos.

  • Valor máximo: 18.8 -> Esto quiere decir que 18.8 es el mayor valor registrado en los datos del consumo de oxigeno obtenidos.

-> Posteriormente al obtener los resultados, se quiso realizar un histograma y un gráfico de cajas, donde se puede observar que:

  • HISTOGRAMA: Este fue empleado para poder evidenciar la frecuencia de los resultados obtenidos del CONSUMO DEL OXIGENO y de esto se puede concluir que:

    • Hay una frecuencia mayor en los datos obtenidos de consumo de oxigeno entre 5 a 15; es decir que, hay una gran cantidad de datos obtenidos que se repiten del consumo de oxigeno entre 5 a 15.

    • La menor frecuencia obtenida fue entre los valores del consumo de oxigeno de 0 a 5 y de 15 a 20; es decir que, hubo muy pocos resultados obtenidos de consumo de oxigeno que fueran entre esos valores.

  • GRAFICO DE CAJAS: Fue empleado para mostrar grupos de datos numéricos a través de sus cuartiles, donde los resultados observados fueron que:

    • En la parte inferior, se evidencia el valor minimo registrado del consumo de oxigeno, el cual fue 1.8

    • Posteriormente, en la “caja” o rango Inter-cuartil representada de color amarillo, se encuentra la mediana, representada por la línea horizontal en negrilla, la cual nos indica que en nuestros datos tomados tenemos 9.7 como el valor de posición central en un conjunto de los resultados del consumo de oxigeno obtenidos en la investigación.

    • Por último, en la parte superior, se evidencia el valor máximo registrado del cpnsumo de oxigeno, el cual fue 18.8

1B

require(ggplot2)
## Loading required package: ggplot2
g1=ggplot(data = BD_moluscos, aes(y=cons_o,x=BD_moluscos$c_agua,colour=BD_moluscos$molusco))+geom_point()+theme_bw()+xlab("Concentración agua")+ylab("Oxigeno")+geom_smooth()+facet_grid(~BD_moluscos$molusco)
plot(g1)
## Warning: Use of `BD_moluscos$c_agua` is discouraged. Use `c_agua` instead.
## Warning: Use of `BD_moluscos$molusco` is discouraged. Use `molusco` instead.
## Warning: Use of `BD_moluscos$c_agua` is discouraged. Use `c_agua` instead.
## Warning: Use of `BD_moluscos$molusco` is discouraged. Use `molusco` instead.
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 3.0071e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 3.0071e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : pseudoinverse used at 49.75
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : neighborhood radius 50.25
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : reciprocal condition number 3.0071e-017
## Warning in simpleLoess(y, x, w, span, degree = degree, parametric =
## parametric, : There are other near singularities as well. 2525.1
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : pseudoinverse used at
## 49.75
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : neighborhood radius
## 50.25
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : reciprocal condition
## number 3.0071e-017
## Warning in predLoess(object$y, object$x, newx = if
## (is.null(newdata)) object$x else if (is.data.frame(newdata))
## as.matrix(model.frame(delete.response(terms(object)), : There are other near
## singularities as well. 2525.1

DESCRIPCIÓN:

Ambos tipos de moluscos, tiene comportamientos similares en su consumo de oxígeno, aunque los moluscos de tipo B varían un poco más su consumo, dependiendo de la concentración. El comportamiento general es que a concentraciones bajas (50%) hay un consumo de oxígeno de aproximadamente 12 unidades para ambos moluscos, al aumentar la concentración, la función toma una pendiente negativa hasta kkegar a concentraciónes entre 70 y 80%, donde ambos tipos de molusco parecen tener el menor consumo de oxígeno en estos puntos, sin embargo este consumo es mucho menor en los moluscos B. Pasado este punto, hasta llegar a una concentración del 100%, el consumo de oxígeno aumenta ligeramente para ambos moluscos.

POST ANOVA
require(agricolae)
## Loading required package: agricolae
require(faraway)
## Loading required package: faraway
require(ggplot2)
attach(BD_moluscos)
tapply(c_agua,molusco, mean)
##  A  B 
## 75 75
ggplot(BD_moluscos, aes(x= cons_o, y= molusco, fill= cons_o))+ geom_boxplot()+ 
  theme_bw()

mod6= lm(c_agua~molusco, data=BD_moluscos)
summary(mod6)
## 
## Call:
## lm(formula = c_agua ~ molusco, data = BD_moluscos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
##    -25    -25      0     25     25 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  7.500e+01  4.256e+00   17.62   <2e-16 ***
## moluscoB    -1.231e-14  6.019e+00    0.00        1    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 20.85 on 46 degrees of freedom
## Multiple R-squared:  5.624e-30,  Adjusted R-squared:  -0.02174 
## F-statistic: 2.587e-28 on 1 and 46 DF,  p-value: 1
anova(mod6)
## Analysis of Variance Table
## 
## Response: c_agua
##           Df Sum Sq Mean Sq F value Pr(>F)
## molusco    1      0    0.00       0      1
## Residuals 46  20000  434.78
table(c_agua)
## c_agua
##  50  75 100 
##  16  16  16
##POSTANOVA
compara1= LSD.test(mod6, "c_agua")
compara1
## $statistics
##    MSerror Df Mean       CV  t.value      LSD
##   434.7826 46   75 27.80192 2.012896 14.83926
## 
## $parameters
##         test p.ajusted name.t ntr alpha
##   Fisher-LSD      none c_agua   3  0.05
## 
## $means
##     c_agua std  r      LCL       UCL Min Max Q25 Q50 Q75
## 50      50   0 16 39.50706  60.49294  50  50  50  50  50
## 75      75   0 16 64.50706  85.49294  75  75  75  75  75
## 100    100   0 16 89.50706 110.49294 100 100 100 100 100
## 
## $comparison
## NULL
## 
## $groups
##     c_agua groups
## 100    100      a
## 75      75      b
## 50      50      c
## 
## attr(,"class")
## [1] "group"

DESCRIPCIÓN:

La media del molusco A como del molusco B son muy similares. En el modelo vemos que hay una marcacion, lo que significa que hay una correlación de significancia pero haciendo un analisis mas profundo nos damos cuenta que que el ajuste de R es de 0,01549, lo que significa que no hay una tendecia tan definida de correlacion por parte de molusco B en relacion con consumo de O. Mientras tanto que en relacion de consumo de agua y consumo de oxigeno si vemos una fuerte correlacion y no tanto con los tipos de molusco

2A

Exploratorio BIVARIADO

require(ggplot2)
data(Salinidad)
## Warning in data(Salinidad): data set 'Salinidad' not found
ggplot(data = Salinidad,aes(y=Biomasa,x=pH,))+geom_point()+theme_bw()+xlab("pH")+ylab("Biomasa")+geom_smooth(color = 'purple')+ ggtitle("Relacion Biomasa y pH ")
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

DESCRIPCIÓN:

-> Se realizo un diagrama de puntos para poder correlacionar las variables de BIOMASA y pH obtenidos en los resultados de la investigación.

Observando la gráfica, se puede evidenciar la relación entre ellas debido a la dispersión con tendencia positiva y proporcional de los puntos, esto se evidencia en la “línea azul” y el intervalo de confianza del ajuste el cual esta reducido (representado de color gris)

Con esto observado, podríamos concluir que la característica pH presenta una correlación positiva con la biomasa, por lo tanto, se puede decir que mayor nivel de pH se va a presentar una mayor cantidad de biomasa en la planta.

ggplot(data = Salinidad,aes(y=Biomasa,x=Salinidad,))+geom_point()+theme_bw()+xlab("Salinidad")+ylab("Biomasa")+geom_smooth(color = 'purple')+ ggtitle("Relacion Biomasa y Salinidad ")
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

DESCRIPCIÓN:

-> Se realizo un diagrama de puntos para poder correlacionar las variables de BIOMASA y SALINIDAD obtenidos en los resultados de la investigación.

Observando la gráfica, se puede evidenciar que no se presenta ninguna relación entre ellas, esto se puede pensar, ya que hay una dispersión dispareja y sin una tendencia de los puntos (observado por la línea azul), además, la gráfica muestra un gran intervalo de confianza del ajuste (representado de color gris

ggplot(data = Salinidad,aes(y=Biomasa,x=Zinc,))+geom_point()+theme_bw()+xlab("Zinc")+ylab("Biomasa")+geom_smooth(color = 'purple')+ ggtitle("Relacion Biomasa y Zinc ")
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

DESCRIPCIÓN:

-> Se realizo un diagrama de puntos para poder correlacionar las variables de BIOMASA y ZINC obtenidos en los resultados de la investigación.

Observando la gráfica, se puede evidenciar la relación entre ellas debido a la dispersión con tendencia negativa, esto se evidencia en la “línea azul” y el intervalo de confianza del ajuste el cual esta reducido. (representado de color gris)

Con esto observado, podríamos concluir que la variable de Zinc tiene una correlación, pero es negativa, ya que se muestra que entre menos concentración de zinc se presente en el suelo más repuesta de la biomasa se va a presentar.

ggplot(data = Salinidad,aes(y=Biomasa,x=Potasio,))+geom_point()+theme_bw()+xlab("Potasio")+ylab("Biomasa")+geom_smooth(color = 'purple')+ ggtitle("Relacion Biomasa y Potasio")
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

DESCRIPCIÓN:

-> Se realizo un diagrama de puntos para poder correlacionar las variables de BIOMASA y POTASIO obtenidos en los resultados de la investigación.

Observando la gráfica, se puede evidenciar que no se presenta ninguna relación entre ellas, esto se puede pensar, ya que hay una dispersión dispareja y sin una tendencia de los puntos (observado por la línea azul), además, la gráfica muestra un gran intervalo de confianza del ajuste (representado de color gris

2B

data("YDRAY_salinidad")
## Warning in data("YDRAY_salinidad"): data set 'YDRAY_salinidad' not found
datos=Salinidad

attach(Salinidad)
## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad
ggplot(Salinidad,aes(x=Biomasa, y=pH))+geom_point()+theme_bw()

cor(Biomasa,pH)
## [1] 0.9281023
ggplot(Salinidad,aes(x=Biomasa, y=Salinidad))+geom_point()+theme_bw()

cor(Biomasa,Salinidad)
##      Biomasa        pH   Salinidad       Zinc     Potasio
## [1,]       1 0.9281023 -0.06657756 -0.7814625 -0.07319518
ggplot(Salinidad,aes(x=Biomasa, y=Zinc))+geom_point()+theme_bw()

cor(Biomasa,Zinc)
## [1] -0.7814625
ggplot(Salinidad,aes(x=Biomasa, y=Potasio))+geom_point()+theme_bw()

cor(Biomasa,Potasio)
## [1] -0.07319518
mod3=lm(Biomasa~pH+Salinidad+Zinc+Potasio , data=datos)
summary(mod3)
## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16
predict(mod3, list(pH=7,Salinidad=30,Zinc=8,Potasio=1500),interval = "confidence")
##        fit      lwr      upr
## 1 1923.707 1771.311 2076.103

DESCRIPCIÓN:

En cuanto a la variable del Zinc, la mejor cantidad aparente es 19, pero el comportamiento tiende a variar un poco en relación con la biomasa, se llega a cierta correlación entre ambas variables, pero existe mucha más afinidad entre pH y biomasa.

Aqui podemos ver varias correlacion en comparacion con Biomasa ya que la que mas tiene correlacion es pH, Zinc, salinidad. la variable que no tiene como una variacion en respuesta a la Biomasa es la variable de Potasio. Lo que podemos decir que si hay una correlacion fuerte entre la variable Biomasa en respuesta con las tres co-variables (pH, Zinc y Salinidad).