library(ggplot2)
library(CGPfunctions)
## Warning: package 'CGPfunctions' was built under R version 4.1.2
library(plotly)
## Warning: package 'plotly' was built under R version 4.1.2
## 
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
## 
##     last_plot
## The following object is masked from 'package:stats':
## 
##     filter
## The following object is masked from 'package:graphics':
## 
##     layout
library(sqldf)
## Loading required package: gsubfn
## Loading required package: proto
## Loading required package: RSQLite
library(lmtest)
## Loading required package: zoo
## 
## Attaching package: 'zoo'
## The following objects are masked from 'package:base':
## 
##     as.Date, as.Date.numeric
library(fastDummies)
library(MASS)
## 
## Attaching package: 'MASS'
## The following object is masked from 'package:plotly':
## 
##     select
library(agricolae)
## Warning: package 'agricolae' was built under R version 4.1.3
load(file="moluscos.Rdata")
BD_moluscos <- BD_moluscos

EJERCICIOS MOLUSCOS

Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

Realice un analisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

summary(BD_moluscos)
##      c_agua      molusco              cons_o      
##  Min.   : 50   Length:48          Min.   : 1.800  
##  1st Qu.: 50   Class :character   1st Qu.: 6.312  
##  Median : 75   Mode  :character   Median : 9.700  
##  Mean   : 75                      Mean   : 9.305  
##  3rd Qu.:100                      3rd Qu.:11.232  
##  Max.   :100                      Max.   :18.800
sqldf("select c_agua, avg(cons_o) as avg_cons_o
       from BD_moluscos
       group by c_agua")
##   c_agua avg_cons_o
## 1     50   12.25062
## 2     75    6.99250
## 3    100    8.67125
#a mayor consumo de agua, menor el consumo de oxigeno
sqldf("select molusco, avg(cons_o) as avg_cons_o
       from BD_moluscos
       group by molusco")
##   molusco avg_cons_o
## 1       A  10.000417
## 2       B   8.609167
#El Molusco tipo A, tiene un mayor consumo de oxigeno.
mod1 <- lm (cons_o ~ c_agua + molusco ,
                    data = BD_moluscos )
summary(mod1)
## 
## Call:
## lm(formula = cons_o ~ c_agua + molusco, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.2945 -0.6798  2.8297  7.3011 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 15.36948    1.91620   8.021 3.22e-10 ***
## c_agua      -0.07159    0.02384  -3.002  0.00436 ** 
## moluscoB    -1.39125    0.97343  -1.429  0.15985    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.372 on 45 degrees of freedom
## Multiple R-squared:  0.1972, Adjusted R-squared:  0.1616 
## F-statistic: 5.528 on 2 and 45 DF,  p-value: 0.007132
par(mfrow=c(2,2))
plot(mod1)

La aplicación de una RLM, con los datos disponibles no es un resultado satisfactorio.

#analisis de anova
anova(mod1)
## Analysis of Variance Table
## 
## Response: cons_o
##           Df Sum Sq Mean Sq F value   Pr(>F)   
## c_agua     1 102.50 102.495  9.0139 0.004362 **
## molusco    1  23.23  23.227  2.0427 0.159846   
## Residuals 45 511.69  11.371                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
BD_moluscos$molusco=as.factor(BD_moluscos$molusco)
BD_moluscos$c_agua=as.factor(BD_moluscos$c_agua)
boxplot(BD_moluscos$cons_o~BD_moluscos$c_agua,
        ylab="consumo de oxigeno",
        xlab="concentracion agua mar")

boxplot(BD_moluscos$cons_o~BD_moluscos$molusco,
        ylab="consumo de oxigeno",
        xlab="Tipo de molusco")

EJERCICIOS SALINIDAD Para estudiar la relacion entre ciertas caracteristicas del suelo y la produccion de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimo la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

Realice un analisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).

Estime el modelo de regresion lineal multiple para explicar la biomasa en funcion de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

load(file="Salinidad.Rdata")
Salinidad <- Salinidad
library(PerformanceAnalytics)
## Loading required package: xts
## 
## Attaching package: 'PerformanceAnalytics'
## The following objects are masked from 'package:agricolae':
## 
##     kurtosis, skewness
## The following object is masked from 'package:graphics':
## 
##     legend
chart.Correlation(Salinidad, histogram = TRUE, method = "pearson")

En general se observan correlaciones fuertes, positiva entre el pH y la Biomasa, lo que indica que a mayor Ph mayor sera la Biomasa y negativa respecto al Zinc, lo que indica que a mayor Zinc menor sera la Biomasa.

#Estimacion de Biomasa mediante RLM
mod2 <- lm(Biomasa ~ Salinidad + pH + Zinc + Potasio ,
                    data = Salinidad )
summary(mod2)
## 
## Call:
## lm(formula = Biomasa ~ Salinidad + pH + Zinc + Potasio, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

+Se obtiene un modelo robusto con un R^2 del 92%. +Los coeficientes de Salinidad y Zinc son negativos indicando una relacion inversamente proporcional respecto a la Biomasa (coeficientes significativo) +El pH tiene un coeficiente positivo, indicando una relacion directamente proporcional (coeficiente significativo) +El potasio es positivo pero no es un coeficiente significativo para la RLM.