1. Moluscos

Dos tipos de “\(molusco\)” A y B fueron sometidos a tres concentraciones distintas de agua de mar “\(c\_agua\)” (100%, 75% y 50%) y se observó el consumo de oxígeno “\(cons\_o\)” midiendo la proporción de O2 por unidad de peso seco del molusco:
c_agua molusco cons_o
100 A 7.16
100 A 8.26
100 A 6.78
100 A 14.00
100 A 13.60
100 A 11.10
a) Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar y si estas conclusiones son las mismas para cada tipo de molusco.

Como se puede observar en la gráfica anterior, el consumo promedio de oxigeno para ambos tipos de moluscos es mayor cuando el nivel de concentración de agua de mar es del 50%. El menor consumo promedio de oxigeno para ambos tipos de moluscos se da cuando el nivel de concentración de agua de mar es del 75%. También podemos observar que el molusco Tipo A consumen en promedio más oxigeno que el molusco Tipo B en niveles de concentración de agua de mar del 75% y 100%. Sólo en el nivel de concentración de agua de mar del 50% el molusco Tipo B consume en promedio más oxigeno que el molusco tipo A. Sin embargo, hay gran solapamiento de los intervalos de confianza e incluso hay medias que se asemejan a otras.

b) Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

## 
## Call:
## lm(formula = cons_o ~ c_agua:molusco, data = DB_moluscos)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -5.946 -1.736 -0.710  2.237  6.625 
## 
## Coefficients: (1 not defined because of singularities)
##                    Estimate Std. Error t value Pr(>|t|)    
## (Intercept)          7.4063     1.0466   7.077 1.13e-08 ***
## c_agua50:moluscoA    4.7687     1.4800   3.222  0.00246 ** 
## c_agua75:moluscoA    0.4837     1.4800   0.327  0.74541    
## c_agua100:moluscoA   2.5300     1.4800   1.709  0.09476 .  
## c_agua50:moluscoB    4.9200     1.4800   3.324  0.00185 ** 
## c_agua75:moluscoB   -1.3113     1.4800  -0.886  0.38069    
## c_agua100:moluscoB       NA         NA      NA       NA    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.96 on 42 degrees of freedom
## Multiple R-squared:  0.4226, Adjusted R-squared:  0.3539 
## F-statistic: 6.149 on 5 and 42 DF,  p-value: 0.0002324
Df Sum Sq Mean Sq F value Pr(>F)
c_agua:molusco 5 269.3992 53.87985 6.149144 0.0002324
Residuals 42 368.0112 8.76217 NA NA

Según el modelo, podemos evidenciar que la concentración de agua al 50% para moluscos de tipo A y B son significativos. En la combinación: c_agua50:moluscoA: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 4.7687 c_agua50:moluscoB: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 4.9200

Para concentraciones de agua al 75% para los moluscos de tipo A y B, vemos el p-value supera el valor de \(\alpha\). Las combinaciones: c_agua75:moluscoA: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 0.4837 c_agua75:moluscoB: si las demás variables permanecen constantes disminuye el consumo de oxigeno en 1.3113

Para concentraciones de agua al 100% para los moluscos de tipo A y B, vemos el p-value supera el valor de \(\alpha\). Las combinaciones: c_agua100:moluscoA: si las demás variables permanecen constantes aumenta el consumo de oxigeno en 2.5300 c_agua75:moluscoB: está combinación no es considerada en el modelo.

El p-valor = 0.1097 > α = 0.05 para la variable molusco, la variable no es significativa en el modelo, no hay diferencias significativas entre las varianzas de la variable.

El modelo presenta un \(R^2=0.4226\) lo que indica que explica la varibilidad del consumo de oxigeno en un 42,26%. su \(p-value = 0.0002324 <= \alpha\).

A continuación se realiza el análisis post anova para comparar las varianzas entre las medias de los grupos desde la concentración de agua y el tipo de molusco:

Post Anova

El Test LSD de Fisher es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Todos los tests de comparaciones múltiples son tests que tratan de perfilar, tratan de especificar, tratan de concretar, una Hipótesis alternativa genérica como la de cualquiera de los Test ANOVA.

## $statistics
##    MSerror Df     Mean      CV  t.value      LSD
##   8.762171 42 9.304792 31.8126 2.018082 2.986858
## 
## $parameters
##         test p.ajusted         name.t ntr alpha
##   Fisher-LSD      none c_agua:molusco   6  0.05
## 
## $means
##         cons_o      std r       LCL       UCL  Min   Max     Q25    Q50     Q75
## 100:A  9.93625 2.747976 8  7.824222 12.048278 6.78 14.00  7.9850  9.295 11.7250
## 100:B  7.40625 2.844076 8  5.294222  9.518278 3.68 11.60  5.7225  6.140 10.1000
## 50:A  12.17500 3.090178 8 10.062972 14.287028 9.74 18.80 10.3100 11.110 12.5000
## 50:B  12.32625 3.517909 8 10.214222 14.438278 6.38 17.70 10.0575 12.850 14.5000
## 75:A   7.89000 2.739578 8  5.777972 10.002028 5.20 13.20  6.0775  7.180  8.8925
## 75:B   6.09500 2.739108 8  3.982972  8.207028 1.80  9.96  4.8300  5.595  7.3425
## 
## $comparison
## NULL
## 
## $groups
##         cons_o groups
## 50:B  12.32625      a
## 50:A  12.17500      a
## 100:A  9.93625     ab
## 75:A   7.89000     bc
## 100:B  7.40625     bc
## 75:B   6.09500      c
## 
## attr(,"class")
## [1] "group"

Podemos ver que la variable moluscos no tiene una diferencia significativa en su varianza, mientras que la variable c_agua si tiene una diferencia significativa cuando la concentración de agua de mar es igual a 50% con respecto a las de nivel de 75% y 100% de concentraciones de agua de mar.

Se puede observar como los consumos en concentraciones del 50% son mayores independiente del tipo de molusco. por su parte en concentraciones de 75% y molusco de tipo B se ve el menor consumo de oxigeno. Para otras combinaciones hay variabilidad.

  1. Biomasa

Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).
Biomasa pH Salinidad Zinc Potasio
765.280 5.00 33 16.4524 1441.67
954.017 4.70 35 13.9852 1299.19
827.686 4.20 32 15.3276 1154.27
755.072 4.40 30 17.3128 1045.15
896.176 5.55 33 22.3312 521.62
1422.836 5.50 33 12.2778 1273.02

a) Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).

Se observa una fuerte correlación entre Biomasa y PH, con un coeficiente de correlación lineal de 92.8%.La siguiente relación (inversa en este caso) más fuerte es entre Biomasa y ZinC con coeficiente de correlación de -78.1 % . De otro lado la relación de biomasa con salinidad y potasio no pareciera ser muy relevante. Es decir que entre los compuestos que componen el suelo para la producción de biomasa en una planta forrajera el PH permite que los gramos de biomasa aumenten, no obstante, un aumento en los componentes como salinidad, zinc y potasio ocasionan una disminusión en la biomasa.

De otro lado se observa una relación fuerte -72.0% de correlación entre zinC y Ph lo que podría generar problemas de multicolinealidad y llevar a la eliminación de una de estas dos variables del modelo.

b) Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

Modelo 1

## 
## Call:
## lm(formula = Biomasa ~ pH + Salinidad + Zinc + Potasio, data = DB_Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16

El modelo de regresión lineal múltiple, sugiere unos parámetros: \(β0=1492.80\;,\; β1=262.88\;,\; β2=-33.4997\;,\; β3=-28.9727\;,\; β4=-0.1150\)

por lo que podemos expresar que

\[Biomasa(PH, Salinidad , Zinc, Potasio) = \\1492.80 + 262.88*PH - 33.4997*Salinidad - 28.9727*Zinc - 0.1150*Potasio\].

Esto significa que si todas las variables independientes fueran \(0\), el valor de la biomasa sería de \(β0=1492.80\). este coeficiente tiene un p-value=0.002091 que indica que significativo y por lo tanto no se descarta.Si no se tuvieran en cuenta el resto de variables, la produccion de biomasa en promedio seria de 1492 gramos.

\(β1=262.88\) por cada unidad de PH que se aumente, se espera que en promedio la biomasa se incremente en 262.88 gramos. \(β2=-33.4997\) por cada unidad de Salinidad que se incremente,se espera que en promedio la biomasa disminuya en 33.4997 gramos. \(β3=-28.9727\) por cada unidad de Zinc que se incremente, se espera que en promedio la biomasa disminuya en 28.9727 gramos.

\(β1\;,\; β2\;y\; β3\) tienen \(p-values < \alpha\) por lo tanto son significativos para el modelo. Por su parte \(β4\) tiene un \(p-value> \alpha\) lo cual indica que no es relevante o significativo para el modelo.

El coeficiente de determinación representa la proporción de la variabilidad de Y que es posible explicar a travez de x. El modelo tiene un \(R^2=0.9231\) y su \(p-value = 2.2e-16<\alpha\) lo que indica que el modelo construido explica el 92% de las variaciones de la biomasa de una planta forrajera natural a partir del pH, la salinidad, el zinc y el potasio.Es un buen modelo predictor de la variable de salida.

Ahora, Se realiza la prueba de supuestos:

Normalidad Com P−value es mayor a 0.05 (nivel de significancia escogido), no se rechaza H0, entonces podría pensar que los errores siguen una distribución normal.

## 
##  Shapiro-Wilk normality test
## 
## data:  mod1_salinidad$residuals
## W = 0.96586, p-value = 0.2036

Supuesto de Homocedasticidad de Varianza (Breush Pagan)

H0:Los residuales se distribuyen con la misma varianza Ha:Los residuales NO se distribuyen con la misma varianza

Como $ P-value $ es mayor a 0.05 (nivel de significancia escogido), no se rechaza H0, entonces se podría pensar que los errores cumplen con el supuesto de homocedasticidad.

## 
##  studentized Breusch-Pagan test
## 
## data:  mod1_salinidad
## BP = 5.4945, df = 4, p-value = 0.2402

Supuesto de Autocorrelación de los errores (Durbin-Watson)

H0:No existe correlación entre los errores Ha:Existe correlación entre los errores

Como valor P es mayor a 0.05 (nivel de significancia escogido),no se rechaza H0, entonces se podría pensar que los errores no estan autocorrelacionados.

## 
##  Durbin-Watson test
## 
## data:  mod1_salinidad
## DW = 1.6647, p-value = 0.06483
## alternative hypothesis: true autocorrelation is greater than 0

By Julieth Cerón
2022