Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

load("C:/Users/asus/Downloads/BD_moluscos.RData")

1 ANÁLISIS EXPLORATORIO. Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar y si estas conclusiones son las mismas para cada tipo de molusco.

summary(BD_moluscos)
##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800

Frente al consumo de agua, se tiene que los tres tipos de consumo de agua tienen las mismas proporciones, existen dos tipos de moluscos con proporciones iguales (24) c/u, y frente al consumo de oxigeno, se identifica un minimo de consumo de oxigeno de 1.800, una media de 9.305, y un màximo de consumo de 18.800

#TIPO DE MOLUSCO

labs=c("A","B"); 
pct=round(table(BD_moluscos$molusco)/sum(table(BD_moluscos$molusco))*100); 
labs=paste(labs, pct);labs=paste(labs, "%", sep = " ") 
pie(table(BD_moluscos$molusco), xlab= "Tipo de moluscos: A y B",labels=labs, main="Diagrama de torta de los moluscos")

Se realizó un diagrama de torta para poder evidenciar de una forma más sencilla la proporción que se encontró en el experimento de los dos tipos de moluscos, teniendo como resultado, que se utilizó la misma cantidad de cada tipo de estos. Posteriormente, se inició con el anñalisis de la variable CONCENTRACIÒN DE AGUA.

#CONCETRACIÒN DE AGUA

summary(BD_moluscos$c_agua)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##      50      50      75      75     100     100
hist(BD_moluscos$c_agua, main = "Histograma de la concentración del agua", xlab = "Concentración del agua", ylab = "Frecuencia", col = "green")

DESCRIPCIÓN:

La variable explorada fue la de CONCENTRACIÓN DEL AGUA DE MAR, donde se obtuvo los siguientes resultados de la media, mediana, desviación estándar, el valor máximo y el valor mínimo registrados. -Media: 75 -> Esto quiere decir que 75 es el promedio de los datos de la CONCENTRACIÓN DEL AGUA DE MAR obtenidos. -Mediana: 75 -> Esto quiere decir que 75 es el valor que se encuentra en la posición central de los datos de la CONCENTRACIÓN DEL AGUA DE MAR obtenidos. -Desviación estándar: 20.62842 -> Esto quiere decir que 20.62842 indica que tan dispersos están los datos, en este se evidencia una disperción entre ellos. -Valor mínimo: 50 -> Esto quiere decir que 50 es el valor minimo registrado en los datos de la CONCENTRACIÓN DEL AGUA DE MAR obtenidos. -Valor máximo: 100 -> Esto quiere decir que 100 es el mayor valor registrado en los datos de la CONCENTRACIÓN DEL AGUA DE MAR. Posteriormente al obtener los resultados, se quiso realizar un histograma, donde se puede observar que:

HISTOGRAMA: Este fue empleado para poder evidenciar la frecuencia de los resultados obtenidos de la CONCENTRACIÓN DEL AGUA DE MAR y de esto se puede concluir que: La CONCENTRACIÓN DEL AGUA DE MAR fueron 3, las cuales, según el histograma, se utilizaron las mismas cantidades de cada porcentaje, por lo tanto, se podría pensar que la investigación contaba con un balance en su diseño experimental.

#CONCETRACIÒN DE OXIGENO

summary (BD_moluscos$cons_o)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   1.800   6.312   9.700   9.305  11.232  18.800
hist(BD_moluscos$cons_o, main = "Histograma del consumo de oxigeno", xlab = "Consumo de Oxigeno", ylab = "Frecuencia", col = "BROWN")

La variable explorada fue la de CONSUMO DEL OXIGENO, donde se obtuvo los siguientes resultados de la media, mediana, desviación estándar, el valor máximo y el valor mínimo registrados. -Media: 9.304792 -> Esto quiere decir que 9.304792 es el promedio de los datos del consumo de oxigeno obtenidos. -Mediana: 9.7 -> Esto quiere decir que 9.7 es el valor que se encuentra en la posición central -Desviación estándar: 3.682652 -> Esto quiere decir que 3.682652 indica que tan dispersos están los datos, en este se evidencia una pequeña disperción entre ellos. -Valor mínimo: 1.8 -> Esto quiere decir que 1.8 es el valor minimo registrado en los datos del consumo de oxigeno obtenidos. -Valor máximo: 18.8 -> Esto quiere decir que 18.8 es el mayor valor registrado en los datos del consumo de oxigeno obtenidos. -Según se muestra en el histograma, hay una frecuencia mayor en los datos obtenidos de consumo de oxigeno entre 5 a 15; es decir que, hay una gran cantidad de datos obtenidos que se repiten del consumo de oxigeno entre 5 a 15. La menor frecuencia obtenida fue entre los valores del consumo de oxigeno de 0 a 5 y de 15 a 20; es decir que, hubo muy pocos resultados obtenidos de consumo de oxigeno que fueran entre esos valores.

1 ANÁLISIS BIVARIADO

#CONCENTRATION DE AGUA Y CONSUMO DE OXIGENO

library(ggplot2)
ggplot(BD_moluscos,aes(y=BD_moluscos$cons_o,x=BD_moluscos$cons_o,fill=BD_moluscos$molusco))+geom_boxplot()+xlab("Concentracion de agua")+ylab("Consumo de O2")
## Warning: Use of `BD_moluscos$cons_o` is discouraged. Use `cons_o` instead.
## Use of `BD_moluscos$cons_o` is discouraged. Use `cons_o` instead.
## Warning: Use of `BD_moluscos$molusco` is discouraged. Use `molusco` instead.

#CONCENTRATION DE AGUA Y TIPO DE MOLUSCO

ggplot(BD_moluscos,aes(y=BD_moluscos$cons_o,x=BD_moluscos$molusco))+geom_boxplot()+facet_grid(~BD_moluscos$c_agua)+xlab("Tipo de molusco")+ylab("Concentración de agua")
## Warning: Use of `BD_moluscos$molusco` is discouraged. Use `molusco` instead.
## Warning: Use of `BD_moluscos$cons_o` is discouraged. Use `cons_o` instead.

Conclusión: Frente al consumo de agua y el tipo de molusco es posible ver que el molusco B tiene una mayor concentración de agua respecto a la primera concentración (50%) en comparación al molusco A, esto en contraste con las dos otras concentraciones(75% y 100%), en las cuales sucede lo contrario, el molusco tipo A presenta una mayor efectividad. En vista general, los dos moluscos tienen mayor consumo de O2 en un ambiente con concentracion de agua de mar de 50%.

2 Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

mod1 = lm(BD_moluscos$cons_o~BD_moluscos$c_agua+BD_moluscos$molusco+BD_moluscos$c_agua*BD_moluscos$molusco)
anova(mod1)
## Analysis of Variance Table
## 
## Response: BD_moluscos$cons_o
##                                        Df Sum Sq Mean Sq F value   Pr(>F)   
## BD_moluscos$c_agua                      1 102.50 102.495  9.0684 0.004298 **
## BD_moluscos$molusco                     1  23.23  23.227  2.0550 0.158773   
## BD_moluscos$c_agua:BD_moluscos$molusco  1  14.38  14.378  1.2721 0.265481   
## Residuals                              44 497.31  11.302                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Es posible identificar que dentro del modelo ANOVA unicamente es significativa la variable de concentración de agua. Tambièn, De acuerdo a esto, obtenemos el valor p de 0.01, certificando la vericidad de la prueba estando dentro del parametro o nivel de confiaza.

summary(mod1)
## 
## Call:
## lm(formula = BD_moluscos$cons_o ~ BD_moluscos$c_agua + BD_moluscos$molusco + 
##     BD_moluscos$c_agua * BD_moluscos$molusco)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.2067 -0.1795  2.2469  7.6802 
## 
## Coefficients:
##                                         Estimate Std. Error t value Pr(>|t|)
## (Intercept)                             13.35854    2.61316   5.112 6.65e-06
## BD_moluscos$c_agua                      -0.04477    0.03362  -1.332    0.190
## BD_moluscos$moluscoB                     2.63063    3.69556   0.712    0.480
## BD_moluscos$c_agua:BD_moluscos$moluscoB -0.05363    0.04754  -1.128    0.265
##                                            
## (Intercept)                             ***
## BD_moluscos$c_agua                         
## BD_moluscos$moluscoB                       
## BD_moluscos$c_agua:BD_moluscos$moluscoB    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.362 on 44 degrees of freedom
## Multiple R-squared:  0.2198, Adjusted R-squared:  0.1666 
## F-statistic: 4.132 on 3 and 44 DF,  p-value: 0.01151
library(agricolae)
post=LSD.test(mod1,"BD_moluscos$c_agua")
post
## $statistics
##   MSerror Df     Mean       CV  t.value      LSD
##   11.3025 44 9.304792 36.13105 2.015368 2.395502
## 
## $parameters
##         test p.ajusted             name.t ntr alpha
##   Fisher-LSD      none BD_moluscos$c_agua   3  0.05
## 
## $means
##     BD_moluscos$cons_o      std  r       LCL       UCL  Min  Max    Q25    Q50
## 50            12.25062 3.199643 16 10.556750 13.944500 6.38 18.8 10.085 11.455
## 75             6.99250 2.804093 16  5.298625  8.686375 1.80 13.2  5.200  6.430
## 100            8.67125 3.000940 16  6.977375 10.365125 3.68 14.0  6.140  8.595
##         Q75
## 50  14.5000
## 75   8.7675
## 100 10.5750
## 
## $comparison
## NULL
## 
## $groups
##     BD_moluscos$cons_o groups
## 50            12.25062      a
## 100            8.67125      b
## 75             6.99250      b
## 
## attr(,"class")
## [1] "group"
bar.group(post$groups,ylim=c(0,15))

CONCLUSIÓN: Segun los datos obtenidos en el postanova, se evalua el efecto de la concentracion de agua de mar y los tipos de molusco sobre el consumo de oxigeno, dando como resultado que el consumo mas efetivo el del molusco de tipo A en la concentracion de agua al 50%. Ademas, en el grafico se plasma los valores de los datos arrojados por el postanova.

2. TALLER SALINIDAD

Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

load("C:/Users/asus/Downloads/Salinidad.RData") 

A. Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones)

library(corrplot)
## corrplot 0.92 loaded
corrplot(cor(Salinidad),
         method = "number", 
         type = "lower",    
         diag = TRUE,      
         tl.col = "black", 
         bg = "white",
         is.corr=T,
         insig = "label_sig",
         title = "",       
         col = NULL)

Es posible observar que las correlaciones más fuertes son entre Biomasa y pH y Zinc. Por otro existe una baja correlación con zinc y postasio.

library(foreign)
library(Factoshiny)
## Loading required package: FactoMineR
## Loading required package: shiny
## Loading required package: FactoInvestigate
library(factoextra)
## Welcome! Want to learn more? See two factoextra-related books at https://goo.gl/ve3WBa
## 
## Attaching package: 'factoextra'
## The following object is masked from 'package:agricolae':
## 
##     hcut
library(corrplot)
library(biplotbootGUI)
library(dynBiplotGUI)
## 
## *** ------------
## *** dynBiplotGUI ***
## 
## Available languages: 
## Spanish-"es", English-"en", French-"fr", Portuguese-"pt". 
## Use: dynBiplot("en") to launch the interface.
library(psych)
## 
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
## 
##     %+%, alpha
pairs.panels(Salinidad)

Se evidencia que para la producción de biomasa en una planta forrajera incide el PH, que permite que los gramos de biomasa aumente, sin embargo, un aumento en los componentes como salinidad, zinc y potasio ocasionan una disminusión en la biomasa.

2. Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

mod2 = lm(Salinidad$Biomasa ~ Salinidad$pH+Salinidad$Salinidad + Salinidad$Zinc + Salinidad$Potasio)
summary(mod2)
## 
## Call:
## lm(formula = Salinidad$Biomasa ~ Salinidad$pH + Salinidad$Salinidad + 
##     Salinidad$Zinc + Salinidad$Potasio)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##                      Estimate Std. Error t value Pr(>|t|)    
## (Intercept)         1492.8076   453.6013   3.291 0.002091 ** 
## Salinidad$pH         262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad$Salinidad  -33.4997     8.6525  -3.872 0.000391 ***
## Salinidad$Zinc       -28.9727     5.6643  -5.115 8.20e-06 ***
## Salinidad$Potasio     -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

Se puede observar qye las variables son estadisticamente significativas pues su p-valor es menor a 0.05, a diferencia de la variable Potasio que resulta no ser estadisticamente significativa con un p-valor de 0.167979.

Adicionalmente, para las variables significativas se infiere que por el aumento en una unidad de pH la biomasa podría aumentar en 262.8829 gramos, el aumento de una unidad de salinidad podría impactar la biomasa con una disminusión en 33.49 gramos y un aumento en una unidad de zinc haría disminuir en 28.97 gramos la biomasa.

Finalmente, el modelo explica en un 92.31% la variabilidad de la biomasa de las plantas forrajeras evaluadas, segùn su R2,

Veamos si el modelo se puede ajustar, segùn sus covariables:

library(MASS)
ajuste = stepAIC(mod2, trace=TRUE, direction="backward")
## Start:  AIC=460.84
## Salinidad$Biomasa ~ Salinidad$pH + Salinidad$Salinidad + Salinidad$Zinc + 
##     Salinidad$Potasio
## 
##                       Df Sum of Sq     RSS    AIC
## <none>                             1009974 460.84
## - Salinidad$Potasio    1     49785 1059759 461.01
## - Salinidad$Salinidad  1    378486 1388460 473.17
## - Salinidad$Zinc       1    660588 1670562 481.49
## - Salinidad$pH         1   1533665 2543639 500.41
ajuste$anova
## Stepwise Model Path 
## Analysis of Deviance Table
## 
## Initial Model:
## Salinidad$Biomasa ~ Salinidad$pH + Salinidad$Salinidad + Salinidad$Zinc + 
##     Salinidad$Potasio
## 
## Final Model:
## Salinidad$Biomasa ~ Salinidad$pH + Salinidad$Salinidad + Salinidad$Zinc + 
##     Salinidad$Potasio
## 
## 
##   Step Df Deviance Resid. Df Resid. Dev      AIC
## 1                         40    1009974 460.8448

El modelo se mantiene igual y mantiene todas sus covariables. Se realiza la prueba de supuestos:

#Normalidad

residuales_ajuste = ajuste$residuals
shapiro.test(residuales_ajuste)
## 
##  Shapiro-Wilk normality test
## 
## data:  residuales_ajuste
## W = 0.96586, p-value = 0.2036

HO: Las variables presentan una distribución normal H1: Las variables presentan una distribución que no es normal P value 0.05>0.20. Como P−value es mayor a 0.05 (nivel de significancia escogido), no se rechaza H0, entonces podría pensar que los errores siguen una distribución normal.

#Varianza constante

lmtest::bptest(ajuste) 
## 
##  studentized Breusch-Pagan test
## 
## data:  ajuste
## BP = 5.4945, df = 4, p-value = 0.2402

Cumplimos el supuesto de homocedasticidad porque nuestro valor p es 0.24, no se rechaza H0, entonces se podría pensar que los errores cumplen con el supuesto de homocedasticidad.

#Errores independientes

lmtest::dwtest(ajuste) 
## 
##  Durbin-Watson test
## 
## data:  ajuste
## DW = 1.6647, p-value = 0.06483
## alternative hypothesis: true autocorrelation is greater than 0

Como valor P es mayor a 0.05 (nivel de significancia escogido),no se rechaza H0, entonces se podría pensar que los errores no estan autocorrelacionados.