Parcial 2

Punto 1 - Datos Moluscos

a. Análisis Exploratorio de Datos

Este es un análisis exploratorio que nos permitirá conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar en los dos tipos de moluscos.

attach(BD_moluscos)
summary(BD_moluscos)

##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800

tapply(cons_o,c_agua, mean,na.rm=TRUE)

##       50       75      100 
## 12.25062  6.99250  8.67125

tapply(cons_o,molusco, mean,na.rm=TRUE)

##         A         B 
## 10.000417  8.609167

Tanto en el summary como en los tapply se puede observar que:

1. Los promedios de consumo de oxígeno para las concentraciones de agua son: 12.2 de consumo de oxígeno para concentración de agua del 50%, 6.99 de consumo de oxígeno para concentración de agua del 75% y por último 8.67 de consumo de oxígeno para concentración de agua del 100%.

2.Los promedios de consumo de oxígeno para los dos tipos de moluscos es: 10 de consumo de oxígeno para el tipo de molusco A, y 8.6 de consumo de oxígeno para el tipo B.

require(ggplot2)

## Loading required package: ggplot2

ggplot(data=BD_moluscos,aes(x=c_agua,y=cons_o, colour=molusco))+geom_point()+theme_bw()+xlab("Concentración de agua de mar")+ylab("Consumo de O.")+geom_smooth()+facet_grid(~molusco)+ggtitle("Relacion consumo de oxigeno y concentración de agua")

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

Gráfica #1: en este boxplot se observa de manera muy general los promedios de los datos de los pormedios mostrados anteriormente, donde en el eje y se observa el consumo de oxígeno, en el ejex la concentración de agua de mar y los resultados para ambos tipo de moluscos a modo de divisiones.

Algunas Conclusiones De acuerdo a los datos del exploratorio específicamente del tapply de consumo de O vs tipo de molusco es claro que el molusco tipo A consume más oxígeno (10) que el molusco B (8.6).

Al observar la gráfica también se puede concluir que tanto el molusco del tipo A como del tipo B consumen más oxígeno al 50% de concentración de agua de mar, sin embargo parece que el molusco tipo B consume más oxígeno que le tipo A en este porcentaje. Siguiendo la gráfica también se observa que al 75% de concentración de agua de mar tanto el molusco A como el molusco B tuvieron un bajo consumo de oxígeno, en especial el molusco tipo B.

b. Modelo de Diseño de Experimento:

Modelo #1: el primer modelo de diseño de experimento es para el consumo de oxígeno en función al tipo de molusco.

mod=lm(cons_o~molusco,data=BD_moluscos)
summary(mod)

## 
## Call:
## lm(formula = cons_o ~ molusco, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.8254 -0.2604  1.7930  9.0908 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  10.0004     0.7459  13.408   <2e-16 ***
## moluscoB     -1.3913     1.0548  -1.319    0.194    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.654 on 46 degrees of freedom
## Multiple R-squared:  0.03644,    Adjusted R-squared:  0.01549 
## F-statistic:  1.74 on 1 and 46 DF,  p-value: 0.1937

Al observar los coeficientes del primer modelo podemos observar que se tomo como valor base los moluscos tipo A y que este tiene un valor p significativo, sin embargo el valor p para los moluscos tipo B no es significativo; por lo que se necesita realizar un análisis anova para confirmar que existen diferencias.

Análisis de Anova: Modelo #1

anova(mod)

## Analysis of Variance Table
## 
## Response: cons_o
##           Df Sum Sq Mean Sq F value Pr(>F)
## molusco    1  23.23  23.227  1.7396 0.1937
## Residuals 46 614.18  13.352

En el anova del modelo #1 se observa que no cumple con el valor p significativo por lo tanto se podria afirmar que no existen diferencias en el modelo #1 y por lo tanto no es necesario hacer un postanova.

Modelo #2: el segundo modelo de diseño de experimento es para el consumo de oxígeno en función a las concentraciones de agua de mar.

BD_moluscos$c_agua_=as.factor(BD_moluscos$c_agua)

mod2=lm(cons_o~c_agua_,data=BD_moluscos)
summary(mod2)

## 
## Call:
## lm(formula = cons_o ~ c_agua_, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.8706 -2.0445 -0.4766  2.2494  6.5494 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  12.2506     0.7515  16.302  < 2e-16 ***
## c_agua_75    -5.2581     1.0627  -4.948 1.09e-05 ***
## c_agua_100   -3.5794     1.0627  -3.368  0.00156 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.006 on 45 degrees of freedom
## Multiple R-squared:  0.3621, Adjusted R-squared:  0.3338 
## F-statistic: 12.77 on 2 and 45 DF,  p-value: 4.043e-05

Al observar los coeficientes del egundo modelo podemos observar que se tomo como valor base la concentración de agua del 50% y que todos los coeficientes del modelo tienen un valor p significativo, sin embargo es importante realizar un análisis anova para confirmar que existen diferencias.

anova(mod2)

## Analysis of Variance Table
## 
## Response: cons_o
##           Df Sum Sq Mean Sq F value    Pr(>F)    
## c_agua_    2 230.82 115.408  12.773 4.043e-05 ***
## Residuals 45 406.59   9.035                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En el anova del modelo #1 se observa que cumple con el valor p significativo por lo tanto se podria afirmar que existen diferencias en el modelo #2 y por lo tanto es necesario hacer un postanova.

Postanova modelo #2:

require(agricolae)

## Loading required package: agricolae

compara=LSD.test(mod2,"c_agua_")
compara

## $statistics
##   MSerror Df     Mean       CV  t.value     LSD
##   9.03543 45 9.304792 32.30485 2.014103 2.14048
## 
## $parameters
##         test p.ajusted  name.t ntr alpha
##   Fisher-LSD      none c_agua_   3  0.05
## 
## $means
##       cons_o      std  r       LCL       UCL  Min  Max    Q25    Q50     Q75
## 100  8.67125 3.000940 16  7.157702 10.184798 3.68 14.0  6.140  8.595 10.5750
## 50  12.25062 3.199643 16 10.737077 13.764173 6.38 18.8 10.085 11.455 14.5000
## 75   6.99250 2.804093 16  5.478952  8.506048 1.80 13.2  5.200  6.430  8.7675
## 
## $comparison
## NULL
## 
## $groups
##       cons_o groups
## 50  12.25062      a
## 100  8.67125      b
## 75   6.99250      b
## 
## attr(,"class")
## [1] "group"

Del postanova del modelo #2 se pueden sacar varios datos, como por ejemplo se pueden observar los intervalos de confianza para las concentraciones de agua de mar. Por otro lado en la sección groups se puede ver que la concentración de agua de mar más significativa es la de 50%, mientras que las concentraciones 100% y 75% aunque no son tan significativas no hay mucha diferencia entre estas 2, lo que significaría que no hay diferencia significativa cuando se usa estos dos porcentajes de concentración de agua.

Punto 2 - Datos Salinidad

a. Análisis de correlaciones bivariadas

Este es un análisis de correlaciones bivariado que nos permitirá identificar las relaciones entre las covariables. En este caso nos permitirá ver la producción de Biomasa en función de las otras covariables (pH, Salinidad, Zinc, Potasio)

attach(Salinidad)

## The following object is masked _by_ .GlobalEnv:
## 
##     Salinidad

cor(Biomasa,Salinidad)

##      Biomasa        pH   Salinidad       Zinc     Potasio
## [1,]       1 0.9281023 -0.06657756 -0.7814625 -0.07319518

En el análisis podemos observar que las variables con más relación son la variable Biomasa son pH (positiva) y Zinc (negativa), ya que valores como la Salinidad y el Potasio podrían considerarse que tienen una relación muy baja con la Biomasa. Sin embargo es importante realizar un modelo de regresión múltiple para confirmar lo observado en las correlaciones.

b. Modelo de Regresión Lineal Múltiple

Este es la estimación del modelo de regresión lineal múltiple para explicar la Biomasa en función de las covariables.

mod=lm(Biomasa~pH+Salinidad+Zinc+Potasio,data=Salinidad)
summary(mod) #el Zinc y Salinidad afectan de manera inversa a Salinidad

## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

En los valores p de los coeficientes del modelo se observa que las covariables pH, Salinidad, Zinc y Potasio tienen valores p significativos por lo tanto podemos afirmar que estas covariables influyen mucho en la producción de Biomasa, a excepción del Potasio el cual no tiene un valor p significativo por lo que podemos afirmar que no afecta ni influye en la producción de Biomasa.

Un aspecto importante de las covariables que influyen en la producción de Biomasa es que el Zinc y la Salinidad afectan de manera inversa a la Biomasa ya que estan aparecen negativas.

Por lo tanto el modelo de regresión múltiple adecuado para la Biomasa seria:

Biomasa = 1492.8 + (262.8829 x pH) + (-33.4997 x Salinidad) + (-28.9727 x Zinc)