1. Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco.

load("moluscos.RData")
BD_moluscos
## # A tibble: 48 × 3
##    c_agua molusco cons_o
##     <dbl> <chr>    <dbl>
##  1    100 A         7.16
##  2    100 A         8.26
##  3    100 A         6.78
##  4    100 A        14   
##  5    100 A        13.6 
##  6    100 A        11.1 
##  7    100 A         8.93
##  8    100 A         9.66
##  9    100 B         6.14
## 10    100 B         6.14
## # … with 38 more rows
## # ℹ Use `print(n = ...)` to see more rows

En la tabla podemos mirar 48 observaciones representadas en tres variables: las concentraciones de agua, el tipo de molusco (A o B) y el consumo de oxigeno.

1.a. Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.

Se determina el promedio de consumo de oxigeno en relación al tipo de molusco y la concentración de agua de mar, se expresa mediante la siguiente matriz.

##                   BD_moluscos.molusco
## BD_moluscos.c_agua        A        B
##                50  12.17500 12.32625
##                75   7.89000  6.09500
##                100  9.93625  7.40625

En cada columna se observa el promedio de la variable consumo de oxígeno relacionada con el tipo de molusco (A o B), además de sus concentraciones de agua marina. Al someter los moluscos al 50% de concentración según la tabla se puede observar un aumento en el consumo de oxígeno tanto para los moluscos de tipo A y B.

Una manera de observar los datos agrupados se puede representar mediante un diagrama de cajas y bigotes de la siguiente manera:

De acuerdo a la figura 1 sobre el eje horizontal se puede ver la concentración de agua marina C_Agua_Marina a la que fueron sometidos los moluscos tipo (A y B).

Se puede observar cómo los moluscos tipo A producen mayor cantidad de oxígeno tanto individual como en promedio, también se nota medias semejantes.

Se pasara a comprobar si las medias independientes son iguales, luego se formula hipótesis que permitan concluir la afirmación.

H0 – μA=μB

H1 – μA≠μB

## 
##  Welch Two Sample t-test
## 
## data:  y by x2
## t = 1.3189, df = 44.234, p-value = 0.194
## alternative hypothesis: true difference in means between group A and group B is not equal to 0
## 98 percent confidence interval:
##  -1.154727  3.937227
## sample estimates:
## mean in group A mean in group B 
##       10.000417        8.609167

Luego de realizar las pruebas se puede indicar que no se presentan diferencias considerables entre los casos A y B.

Para determinar que estas diferencias no son considerables en los estimadores de media y varianza procedo a realizar un prueba f para comparar las varianzas de dos muestras de poblaciones normales.

## 
##  F test to compare two variances
## 
## data:  cons_o by molusco
## F = 0.66695, num df = 23, denom df = 23, p-value = 0.3383
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
##  0.2885166 1.5417410
## sample estimates:
## ratio of variances 
##          0.6669467

Luego de los cálculos realizados se puede observar que el valor de p-value = 0.3383. Al ser un valor alto, entonces se puede indicar que las medias y varianzas para los tipos A y B no son iguales, de esta manera no se presentan diferencias considerables en el consumo de oxígeno de los moluscos tipo A y B.

1.b. Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxígeno. Interprete los coeficientes del modelo, el valor p y realice un post anova de considerarlo necesario para los factores.

Luego de realizar el análisis exploratorio en el punto 1.a lo que se pretende ahora es estimar un modelo que permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxígeno, de esta manera se hace necesario conocer el intervalo de confianza de la media de acuerdo al consumo de oxígeno, y así poder definir un modelo de regresión lineal que vincule todas las variables.

n <- 48           # El tamaño de la muestra
media <- mean(y)  # media 
desv <- sd(y)     # desviación estándar 
nivel_de_confianza = 0.95 #vamos a suponer un error máximo del 5%
error.est <- desv/sqrt(n) # se calcula el error estándar
margen.error <- qnorm(0.025) * error.est # determina el nivel de confianza de 95% 
lim.inf <- media - margen.error # definimos Límite inferior del intervalo
lim.sup <- media + margen.error # definimos Límite superior del intervalo
Intervalo= c(lim.inf,lim.sup)
Intervalo #Para la media 
## [1] 10.346601  8.262983

De esta manera el valor del rango de la media queda definido como:

8.262983 < μ < 10.346601

De acuerdo a este valor y considerando el margen de confianza del 95%, esperaríamos que el consumo de oxígeno de los moluscos tipo A y B se dé entre los valores de 8.262983 y 10.346601, esto se podría dar debido a que si no se presentan diferencias entre las medias del experimento entonces se podría considerar las muestras como una sola población.

Ahora se procede a realizar modelado de la variable tipo molusco (X2) más la variable C_agua_Marina vs la variable de respuesta principal correspondiente al consumo de oxígeno en los moluscos tipo A y B.

## 
## Call:
## lm(formula = cons_o ~ x1 + x2, data = BD_moluscos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -6.8092 -2.2945 -0.6798  2.8297  7.3011 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 15.36948    1.91620   8.021 3.22e-10 ***
## x1          -0.07159    0.02384  -3.002  0.00436 ** 
## x2B         -1.39125    0.97343  -1.429  0.15985    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.372 on 45 degrees of freedom
## Multiple R-squared:  0.1972, Adjusted R-squared:  0.1616 
## F-statistic: 5.528 on 2 and 45 DF,  p-value: 0.007132

De acuerdo a los resultados obtenidos y teniendo en cuenta el valor de p para este modelo en particular se puede detallar que la variable de concentración de agua es la que más influye sobre el consumo de oxígeno por parte de los moluscos, por otra parte, el tipo de molusco (factor) representa un valor p de 0.159, lo que corresponde a un valor significativo, luego se puede inferir que no es una covariable significativa para el modelo, esto podría descartarse.

si observamos el valor definido para R2 = 0.1616 y el valor p.value de la regresión (p-value: 0.007132) sería necesario realizar análisis postanova que permita en cierta medida definir relaciones fuertes o débiles del modelo.

En primera medida se opta por un intervalo de confianza para la regresión lineal, se puede tomar con un valor de 95% de confianza.

##       fit              lwr             upr        
##  Min.   : 6.819   Min.   :4.986   Min.   : 8.653  
##  1st Qu.: 8.211   1st Qu.:6.377   1st Qu.: 9.996  
##  Median : 9.305   Median :7.894   Median :10.716  
##  Mean   : 9.305   Mean   :7.620   Mean   :10.990  
##  3rd Qu.:10.399   3rd Qu.:8.614   3rd Qu.:12.233  
##  Max.   :11.790   Max.   :9.956   Max.   :13.624

De acuerdo a los resultados se puede notar que se presenta superposición entre los intervalos de confianza definidos por el modelo y que fueron calculados en el punto 1.a, de esta manera se procede a realizar una gráfica de las variables con los intervalos mostrados.

De acuerdo al resultado de los gráficos se puede observar que se presenta gran dispersión en los datos, además considerando los intervalos de confianza definidos se puede indicar que no se presenta uniformidad y autenticidad, luego no se hace necesario un análisis post-anova dada la baja significancia de las variables.

2. Para estudiar la relación entre ciertas características del suelo y la producción de biomasa (gr) de una planta forrajera natural se obtuvieron 45 muestras en diferentes ambientes, y en cada muestra se estimó la biomasa (respuesta Y) y se registraron las características (covariables X) del suelo en el que crecía (pH, Salinidad, Zinc y Potasio).

load("salinidad.RData")
BD_moluscos
## # A tibble: 48 × 3
##    c_agua molusco cons_o
##    <fct>  <chr>    <dbl>
##  1 100    A         7.16
##  2 100    A         8.26
##  3 100    A         6.78
##  4 100    A        14   
##  5 100    A        13.6 
##  6 100    A        11.1 
##  7 100    A         8.93
##  8 100    A         9.66
##  9 100    B         6.14
## 10 100    B         6.14
## # … with 38 more rows
## # ℹ Use `print(n = ...)` to see more rows

se definen las variables

Y1 = Salinidad$Biomasa
X0 = Salinidad$pH
X1 = Salinidad$Zinc
X2 = Salinidad$Salinidad
X3 = Salinidad$Potasio

2.a. Realice un análisis de correlaciones que permita identificar de manera bivariada las relaciones entre las covariables y la respuesta (incluir coeficiente de correlación e interpretaciones).

Inicialmente se realizan los modelos de correlación bivariados.

Biomasa con el PH

## 
## Call:
## lm(formula = Biomasa ~ pH, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -566.28  -89.26  -19.42  142.42  413.28 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -780.18     117.99  -6.612  4.7e-08 ***
## pH            404.08      24.72  16.346  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 205.7 on 43 degrees of freedom
## Multiple R-squared:  0.8614, Adjusted R-squared:  0.8582 
## F-statistic: 267.2 on 1 and 43 DF,  p-value: < 2.2e-16

De acuerdo a los cálculos obtenidos se puede indicar que las dos variables tienen una relación directa, es decir que a medida que el suelo se torna más acido, la planta producirá mayor cantidad de biomasa. Se puede observar que la variable pH es bastante significativa con respecto la Biomasa.

En el siguiente grafico se puede observar la relación.

De acuerdo a los cálculos obtenidos se puede notar que el valor de R-squared: 0.8582 es alto más el valor de p-value: < 2.2e-16, se puede indicar que se cuenta con la mejor variable predictora del modelo de regresión, de igual forma proporciona sentido a la variable de respuesta, también se puede detallar que por cada aumento de PH que incrementa el suelo, el valor de la biomasa se incrementa en un 404.08 gramos.

Biomasa con la cantidad de Zinc.

## 
## Call:
## lm(formula = Biomasa ~ X1, data = Salinidad)
## 
## Residuals:
##    Min     1Q Median     3Q    Max 
## -545.6 -313.3   10.3  234.1  907.8 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 2002.147    123.247  16.245  < 2e-16 ***
## X1           -51.595      6.282  -8.213 2.37e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 344.8 on 43 degrees of freedom
## Multiple R-squared:  0.6107, Adjusted R-squared:  0.6016 
## F-statistic: 67.45 on 1 and 43 DF,  p-value: 2.373e-10

De acuerdo al análisis desarrollado se puede indicar que el ZINC corresponde a la segunda mejor predictora de la variable respuesta, esto debido a que el valor de R2 = 0.6016 es alto, pero aún sigue siendo significativo con respecto a la biomasa.

Además el valor (p-value de 2.373e-10) nos determina buena correlación entre ambas variables.

En el siguiente grafico se puede observar la relación.

### De acuerdo al diagrama de puntos que permite observar la correlación de los elementos de zinc y biomasa se presenta relación entre ellas con una tendencia negativa, esto se puede observar sobre la línea azul, además se puede observar un intervalo de confianza bastante reducido determinado por la franja de color gris.

Relación de Biomasa con la salinidad.

## 
## Call:
## lm(formula = Biomasa ~ X2, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -714.96 -430.58  -81.87  232.77 1296.33 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)  
## (Intercept) 1378.112    681.333   2.023   0.0494 *
## X2            -9.778     22.347  -0.438   0.6639  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 551.4 on 43 degrees of freedom
## Multiple R-squared:  0.004433,   Adjusted R-squared:  -0.01872 
## F-statistic: 0.1914 on 1 and 43 DF,  p-value: 0.6639

De acuerdo a los valores calculados p-value toma un valor bastante alto de 0.6639, pero el coeficiente de correlación es negativo, luego las variables se relacionan inversamente proporcional de manera débil, luego no corresponde a un predictor efectivo para el modelo.

Según el diagrama de puntos establecido para los elementos de potasio y biomasa se puede observar que no se presenta ninguna relación entre ellas, dado las dispersiones tan disparejas, además sin tendencias en los puntos, esto se puede observar sobre los puntos que se acercan a la línea azul, además del amplio intervalo de confianza del ajuste denotado por la banda gris.

Biomasa de las plantas respecto al nivel de potasio.

## 
## Call:
## lm(formula = Biomasa ~ X3, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -732.60 -450.49  -60.73  284.15 1218.57 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1189.3171   237.3067   5.012 9.74e-06 ***
## X3            -0.1344     0.2792  -0.481    0.633    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 551.1 on 43 degrees of freedom
## Multiple R-squared:  0.005358,   Adjusted R-squared:  -0.01777 
## F-statistic: 0.2316 on 1 and 43 DF,  p-value: 0.6328

De acuerdo a los cálculos representados la covariable Potasio es la que menos se relaciona con la biomasa, esto se debe a que presenta un alto valor de p = 0.6328 en relación a las demás variables, luego no es un buen indicador para el modelo, de igual manera el valor de R2 = -0.01777 es muy bajo, incluso negativo, luego se puede indicar que la variable biomasa es inversamente proporcional a la cantidad de potasio.

De acuerdo al diagrama de puntos determinado para definir las características de potasio y biomasa no se presenta ninguna relación entre ellas, esto se debe a la dispersión dispareja y no muestra tendencia entre los puntos como se observa sobre la línea azul, además del amplio intervalo de confianza que se denota sobre la banda gris.

2.b. Estime el modelo de regresión lineal múltiple para explicar la biomasa en función de las covariables e interprete el valor p, los coeficientes de las variables significativas y el coeficiente R2.

Inicialmente se define un modelo que permita incluir todas las variables.

## 
## Call:
## lm(formula = Biomasa ~ pH + Potasio + Salinidad + Zinc, data = Salinidad)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -293.98  -88.83   -9.48   88.20  387.27 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 1492.8076   453.6013   3.291 0.002091 ** 
## pH           262.8829    33.7304   7.794 1.51e-09 ***
## Potasio       -0.1150     0.0819  -1.404 0.167979    
## Salinidad    -33.4997     8.6525  -3.872 0.000391 ***
## Zinc         -28.9727     5.6643  -5.115 8.20e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 158.9 on 40 degrees of freedom
## Multiple R-squared:  0.9231, Adjusted R-squared:  0.9154 
## F-statistic:   120 on 4 and 40 DF,  p-value: < 2.2e-16
Modelo1
## 
## Call:
## lm(formula = Biomasa ~ pH + Potasio + Salinidad + Zinc, data = Salinidad)
## 
## Coefficients:
## (Intercept)           pH      Potasio    Salinidad         Zinc  
##    1492.808      262.883       -0.115      -33.500      -28.973

De acuerdo a los cálculos realizados se puede observar que existe una significancia directa entre las covariables empleadas en el experimento, de acuerdo a esto las variables que más se relacionan con la biomasa son la ph, zinc, de esta manera las variables de potasio y salinidad son las que tienen menor correlación con respecto a Y.

Luego el modelo de regresión con un valor de R2 R-squared: 0.9154 queda expresado de la siguiente forma:

Biomasa=1492.808+262.883(pH)−28.973(Zinc)−33.500(Salinidad)−0.115(Potasio)

Al emplear esta regresión múltiple, se debe considerar que hay dos variables mínimamente relacionadas entre si como lo son el potasio y la salinidad, sin embargo su inclusión si determina y aumenta el valor de R2.

El valor de R-squared: 0.9154 indica que el modelo representa en un 91.5% la variable de respuesta considerando los demás parámetros.

Teniendo en cuenta estas consideraciones se puede emplear esta regresión para predecir un valor promedio de la biomasa, considerando los valores promedios para cada predictor.

##        fit      lwr      upr
## 1 1714.484 1545.635 1883.333

De esta manera se logra obtener con un valor de 95% de confianza los valores de predicción del modelo propuesto, ya conocemos del aporte mínimo que representan las variables de salinidad y potasio al modelo, sin embargo, si estas dos variables son eliminadas entonces hace que el valor de Pearson disminuya, luego es mejor trabajar con las 4 covariables.

Teniendo en cuenta que se presentan variables significativas en el m0delo propuesto entonces es conveniente analizar la tabla anova.

## Analysis of Variance Table
## 
## Response: Biomasa
##           Df   Sum Sq  Mean Sq  F value    Pr(>F)    
## pH         1 11310631 11310631 447.9573 < 2.2e-16 ***
## Potasio    1   140077   140077   5.5477    0.0235 *  
## Salinidad  1     9648     9648   0.3821    0.5400    
## Zinc       1   660588   660588  26.1626 8.203e-06 ***
## Residuals 40  1009974    25249                       
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

De acuerdo a los cálculos realizados se determina que existen tres variables significativas sobre la biomasa, en contraste a lo que se había indicado anteriormente, que solo dos variables presentaban significancia, de esta manera se procede a realizar una prueba posterior relacionada con el test de Duncan “El Test de Duncan es un test de comparaciones múltiples. Permite comparar las medias de los t niveles de un factor después de haber rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA.” Esto debido a que el test LSD descarta posibles independencias de variables.

## 
## Study: Modelo1 ~ "pH"
## 
## Duncan's new multiple range test
## for Biomasa 
## 
## Mean Square Error:  25249.35 
## 
## pH,  means
## 
##        Biomasa       std r      Min      Max
## 3.2   538.4607 112.54608 3  448.315  664.601
## 3.25  445.5385  58.78568 4  369.823  509.872
## 3.3   545.5380        NA 1  545.538  545.538
## 3.35  555.9440  83.64649 2  496.797  615.091
## 3.45  797.8005  28.74601 2  777.474  818.127
## 3.5   977.5150        NA 1  977.515  977.515
## 3.7   612.4470        NA 1  612.447  612.447
## 3.75  654.8250        NA 1  654.825  654.825
## 3.95  568.4550        NA 1  568.455  568.455
## 4.1  1198.3955   7.31502 2 1193.223 1203.568
## 4.15  991.8290        NA 1  991.829  991.829
## 4.2   827.6860        NA 1  827.686  827.686
## 4.25  821.0690        NA 1  821.069  821.069
## 4.4   755.0720        NA 1  755.072  755.072
## 4.45 1008.8040        NA 1 1008.804 1008.804
## 4.55 1152.3410        NA 1 1152.341 1152.341
## 4.6  1049.3065  13.67474 2 1039.637 1058.976
## 4.7   954.0170        NA 1  954.017  954.017
## 4.75 1398.8850 130.66061 2 1306.494 1491.276
## 4.85 1349.1920        NA 1 1349.192 1349.192
## 5     765.2800        NA 1  765.280  765.280
## 5.2  1331.5390 108.42351 2 1254.872 1408.206
## 5.35 1346.8800        NA 1 1346.880 1346.880
## 5.4  1137.1930        NA 1 1137.193 1137.193
## 5.5  1350.4240 179.86149 3 1145.643 1482.793
## 5.55  896.1760        NA 1  896.176  896.176
## 5.6  1895.9420        NA 1 1895.942 1895.942
## 7.1  2270.2940        NA 1 2270.294 2270.294
## 7.35 2332.2200        NA 1 2332.220 2332.220
## 7.4  2337.3260        NA 1 2337.326 2337.326
## 7.45 2192.5595  42.46671 2 2162.531 2222.588
## 
## Groups according to probability of means differences and alpha level( 0.05 )
## 
## Means with the same letter are not significantly different.
## 
##        Biomasa groups
## 7.4  2337.3260      a
## 7.35 2332.2200      a
## 7.1  2270.2940      a
## 7.45 2192.5595      a
## 5.6  1895.9420      a
## 4.75 1398.8850      b
## 5.5  1350.4240     bc
## 4.85 1349.1920     bc
## 5.35 1346.8800     bc
## 5.2  1331.5390     bc
## 4.1  1198.3955    bcd
## 4.55 1152.3410    bcd
## 5.4  1137.1930   bcde
## 4.6  1049.3065  bcdef
## 4.45 1008.8040 bcdefg
## 4.15  991.8290 bcdefg
## 3.5   977.5150 bcdefg
## 4.7   954.0170 bcdefg
## 5.55  896.1760 cdefgh
## 4.2   827.6860  defgh
## 4.25  821.0690  defgh
## 3.45  797.8005  defgh
## 5     765.2800  defgh
## 4.4   755.0720  defgh
## 3.75  654.8250   efgh
## 3.7   612.4470    fgh
## 3.95  568.4550    fgh
## 3.35  555.9440     gh
## 3.3   545.5380     gh
## 3.2   538.4607     gh
## 3.25  445.5385      h

De acuerdo a este análisis detallado se puede observar que la covariable PH presenta diferencias significativas en los resultados del experimento, luego esto indica que se presente influencia en la acidez del suelo sobre la biomasa.

Referencias

Casierra-Posada, F. y Poveda, J, 2005 . La toxicidad por exceso de Mn y Zn disminuye la producción de materia seca, los pigmentos foliares y la calidad del fruto en fresa (Fragaria sp. cv. Camarosa). Agronomía Colombiana. 23(2).

Rivera, E.; Sánchez, M. y Domínguez, H. 2018. pH como factor de crecimiento en plantas. RIC.4.