## Loading required package: agricolae
## Warning: package 'agricolae' was built under R version 4.0.5
## Loading required package: ggplot2
1. Dos tipos de moluscos A y B fueron sometidos a tres concentraciones distintas de agua de mar (100%, 75% y 50%) y se observó el consumo de oxígeno midiendo la proporción de O2 por unidad de peso seco del molusco
Realice un análisis exploratorio que permita conocer como es el consumo de oxígeno en las distintas concentraciones de agua de mar. y si estas conclusiones son las mismas para cada tipo de molusco.
Estime el modelo de diseño de experimentos el cual permita evaluar el efecto de la concentración de agua de mar y los tipos de molusco sobre el consumo de oxigeno. Interprete los coeficientes del modelo, p-value y realice un post anova de considerarlo necesario para los factores.
2. A continuación, encontrará usted los datos de riqueza (número de especies) de moluscos asociados a cantos intermareales de diferente tamaño en diferentes épocas del año. Teniendo en cuenta esto, usted quiere evaluar si la riqueza varía entre los diferentes tamaños de cantos, las diferentes épocas del año y si existe interacción entre el tamaño del canto y la época del año. Recuerde plantear las hipótesis de trabajo antes de empezar con los análisis. Adicionalmente, recuerde que el investigador debe estar seguro de que sus datos cumplen ciertas asunciones para poder utilizar el ANOVA. Utilice pruebas de comparación múltiple (postanova), de ser necesarias, para determinar cuál es el tamaño del canto donde se encuentra mayor número de especies para cada época del año. Utilice un 𝛼 = 5%
3.Suponga que se desea realizar una investigación diseñada para conocer el efecto de cuatro tipos de dieta sobre el engorde de cerdos, donde se tienen 20 cerdos asignados aleatoriamente a cuatro grupos experimentales (cuatro dietas disponibles) y someter a cada grupo a un único tipo de dieta. Teniendo en cuenta lo anterior, usted quiere evaluar si existe diferencias entre los pesos corporales de los cerdos (en Kg) después de haber sido criados con esas dietas por un mes
4. Se desea determinar el efecto que tienen dos factores (Temperatura y Sexo) sobre la tasa de consumo de oxígeno (mgO2) de una especie de cangrejo. La siguiente tabla muestra los datos colectados para 24 animales usados en el experimento
————————————————————————————————————————————————————————————————————–
Para el caso, es necesario ilustrar los datos, a forma de reconocer las variables como sigue:
Y= BD_moluscos$cons_o
x1=BD_moluscos$c_agua
x2=BD_moluscos$molusco
Primero, se hace un resumen según el promedio del consumo de oxígeno en relación al tipo de molusco y la concentranción de agua de mar. Todo ello se evidencia en la siguiente matriz:
datos=data.frame(BD_moluscos$c_agua,BD_moluscos$molusco)
tapply(Y,datos,mean,na.rm=TRUE)
## BD_moluscos.molusco
## BD_moluscos.c_agua A B
## 50 12.17500 12.32625
## 75 7.89000 6.09500
## 100 9.93625 7.40625
Según esto, en cada columna se representan los promedios de la variable prinicipal (consumo Oxigeno) en relación al tipo de molusco y sus respectivas concentraciones de agua marina aplicada. En el ensayo de someter los moluscos al 50% de concentración, existe una evidente elevación del consumo de Oxígeno tanto en el molusco A como el B.
Para ser más claros, primero se realiza una gráfica de cajas con todos los datos agrupados de la manera siguiente:
Muy visualmente, en el eje horizontal se indica la concentración de agua marina a la que fueron sometidos los dos tipos de moluscos (A y B), antecediendo en cada letra el valor de la concentración correspondiente al experimento. El diagrama, es más claro al notarse como los moluscos tipo A producen más cantidad de oxígeno en promedio e individualmente. Sin embargo, hay gran solapamiento de los intervalos de confianza e incluso hay medias que se asemejan a otras.
Para sustentar esta afirmación es necesario comprobar si ambas medias independientes son iguales o no con una prueba t de hipótesis para la media. Se sustenta así:
\(H0::\mu_A=\mu_B\)
\(H1::\mu_A \neq \mu_B\)
t.test(Y~x2, alternative='two.sided', conf.level=0.98, var.equal=FALSE,
data=BD_moluscos)#Prueba de t-student para dos muestras independientes
##
## Welch Two Sample t-test
##
## data: Y by x2
## t = 1.3189, df = 44.234, p-value = 0.194
## alternative hypothesis: true difference in means is not equal to 0
## 98 percent confidence interval:
## -1.154727 3.937227
## sample estimates:
## mean in group A mean in group B
## 10.000417 8.609167
Conclusión:no hay diferencias significativas entre los dos tratamientos A y B. Es más, para comprobar que efectivamente no existe diferencias en los estimadores media y varianza, se procede a realizar un test F de dos colas para muestras independientes:
var.test(cons_o ~ molusco, alternative='two.sided', conf.level=.95, data=BD_moluscos)
##
## F test to compare two variances
##
## data: cons_o by molusco
## F = 0.66695, num df = 23, denom df = 23, p-value = 0.3383
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.2885166 1.5417410
## sample estimates:
## ratio of variances
## 0.6669467
Al analizar el p-value tan alto, se procede a concluir que ni las medias, ni las varianzas de ambos tratamientos A y B son iguales; no existen diferencias significativas en el consumo de oxígeno de los moluscos A y B.
Tras conocer los análisis exploratorios del punto 1a, es necesario concer cuál es el intervalo de confianza de la media según el consumo de oxígeno. Para así realizar un modelo de regresión que incluya todas las variables:
n <- 48 # El tamaño válido de la muestra
media <- mean(Y) # la media
desv <- sd(Y) # La desviación estándar
nivel_de_confianza = 0.95 #Suponiendo un error máximo del 5%
error.est <- desv/sqrt(n) # Calculamos el error estándar
margen.error <- qnorm(0.025) * error.est # nivel de confianza de 95%
lim.inf <- media - margen.error # Límite inferior del intervalo
lim.sup <- media + margen.error # Límite superior del intervalo
Intervalo= c(lim.inf,lim.sup)
Intervalo #Para la media
## [1] 10.346601 8.262983
\(8.262983 < \mu < 10.346601\)
Según este, se espera con un 95% de confianza que el consumo de oxígeno de ambos moluscos A y B, ronde entre 8.3 y 10.3 (unidades arbitrarias) ya que al no existir diferencias entre ambas medias del ensayo, se podrían tratar ambas muestras como una sola población.
Haciendo caso al anterior aserto, se procede a modelar las variables Tipo de Moluscos (x2) más la variable Concentración de Agua contra la variable de respuesta principal que es el consumo de oxígeno tanto en los moluscos A como en B:
Mod1=lm(formula = cons_o ~ x1 + x2, data = BD_moluscos)#Regresión lineal de todas las covariables
summary(Mod1)
##
## Call:
## lm(formula = cons_o ~ x1 + x2, data = BD_moluscos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.8092 -2.2945 -0.6798 2.8297 7.3011
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 15.36948 1.91620 8.021 3.22e-10 ***
## x1 -0.07159 0.02384 -3.002 0.00436 **
## x2B -1.39125 0.97343 -1.429 0.15985
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.372 on 45 degrees of freedom
## Multiple R-squared: 0.1972, Adjusted R-squared: 0.1616
## F-statistic: 5.528 on 2 and 45 DF, p-value: 0.007132
Al observar por ejemplo que los p-values de este modelo, se observa que el la concentración de agua es la variable que mejor influye sobre el consumo de oxígeno con hasta dos grados de significancia, en contraste, el tipo de molusco (factor) posee un p-value tan alto (0.159) que se infiere que no es una covariable significativa con el modelo, por lo tanto, se podría descartar. Sin embargo, al obsevar el \(R^2=0.1616\) y el p-value de la regresión de 0.07132, es necesario añadir que un análisis PostAnova podría definir las relaciones fuertes y débiles del modelo.
Primero, se hace un intervalo de confianza para la regresión lineal, en la cual, se puede predecir con un 95% de confianza los valores que puede tomar la variable de respuesta en relación al modelo.
prediccion=predict(Mod1,list(x1),interval = "confidence",level = 0.95) # ¿Bajo que rango de consumo de oxígeno deben estar los datos del ensayo según el modelo planteado?
summary(prediccion)
## fit lwr upr
## Min. : 6.819 Min. :4.986 Min. : 8.653
## 1st Qu.: 8.211 1st Qu.:6.377 1st Qu.: 9.996
## Median : 9.305 Median :7.894 Median :10.716
## Mean : 9.305 Mean :7.620 Mean :10.990
## 3rd Qu.:10.399 3rd Qu.:8.614 3rd Qu.:12.233
## Max. :11.790 Max. :9.956 Max. :13.624
Según este, se concuerda que hay un solapamiento entre los intervalos de confianza dados por el modelo y los que se calcularon en el punto 1a, por lo cual, se realiza una gráfica de todas las variables anteriores con aquellos intervalos presentes:
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
Existe gran dispersión en los datos, y dada la amplitud de los intervalos de confianza, se puede estimar que no existe homogeneidad y versomilitud en las relaciones de las variables, por lo cual, se puede afirmar que no es necesario un análisis Post-Anova debido a la baja significancia de ambas variables.
Lo que si se pude afirmar, es que el modelo que mejor se adecúa a la descripción de regresión del consumo de oxígeno queda de la siguiente forma:
\[ Cons.de.oxígeno=14.67385 - 0.07159(concentracion.de.agua) \]
La cual posee un coeficiente de correlación \(R^2=0.1426\) el cual no es indicador de fuerte relación e incluso da el certamen de ser un modelo débil para la interpretación de estos ensayos. Además, el corte del eje y más el B1 corresponden a lo esperado del experimento, a mayor concentración de agua marina, menor el consumo de oxígeno de los moluscos.
————————————————————————————————————————————————————————————————————–
Lo primero que se hace es enunciar un resumen numérico que relacionen las variables, de manera que se evidencien los promedios por temporada y tamaño de los cantos intermareales:
## Loading required package: car
## Loading required package: carData
## Temporada
## cantos_int T1 T2 T3 T4
## S1 6.50 6.75 8.25 7.75
## S2 7.25 6.00 5.75 4.50
## s3 2.25 4.00 4.00 3.25
## S4 2.25 3.25 1.75 2.00
Según el resumen, los datos constan de tres variables distrintas como son: Los tamaños del canto intermareal(S1,S2,S3,S4) y las distintas temporadas del año (T1,T2,T3,T4) así como las cantidades de especies (Variable Y). Visualmente, hay una tendencia mayor de riqueza de especies en la Temporada T3 que es de 4.93 a comparación de la media global que es de 4.71 especies. Sin embargp, esta conclusión es mejor ahondarla con una gráfica general y específica de cajas para mejor visualización.
Ahora, es necesario incluir dos gráficas que relacionen los promedios de riqueza de especies del estudio y luego graficar individualmente cada población añadida con sus respectivos tamaños de los cantos:
Con la gráfica, es fácil identificar algunas evidencias como: Las especies de moluscos asociados al canto intermareal S1, representan un mayor número de especies comparado a los demás cantos, también, se observa que en las temporadas T2, T3 y T4 existe una similitud en la cantidad de especies en todos los cantos. Según esto, se puede considerar que el tamaño de los cantos intermareales afecten la riqueza de especies de moluscos, además de esperar que quizás las temporadas no influyan tanto en la cantidad de moluscos del estudio. Muy someramente, hay conclusión de que al ser los datos de las temporadas muy homogéneos entre sí, este factor no incide directamente en la riqueza de cantidad de especies de moluscos.
Ahora bien, para verificar cuáles son los factores que influyen más en la cantidad de especies de moluscos, es necesario incluir un modelo de regresión que de cuenta a la significancia de sus predictores:
##
## Call:
## lm(formula = especies ~ temporada + cantos_int, data = riqueza)
##
## Residuals:
## Min 1Q Median 3Q Max
## -6.0938 -1.5313 -0.1562 1.2969 5.4062
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 7.1562 0.7460 9.592 1.69e-13 ***
## temporadaT2 0.4375 0.7976 0.549 0.5855
## temporadaT3 0.3750 0.7976 0.470 0.6400
## temporadaT4 -0.1875 0.7976 -0.235 0.8150
## cantos_intS2 -1.4375 0.7976 -1.802 0.0768 .
## cantos_ints3 -3.9375 0.7976 -4.937 7.27e-06 ***
## cantos_intS4 -5.0000 0.7976 -6.269 5.19e-08 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.256 on 57 degrees of freedom
## Multiple R-squared: 0.4677, Adjusted R-squared: 0.4117
## F-statistic: 8.348 on 6 and 57 DF, p-value: 1.666e-06
Si bien la regresión permite un valor p óptimo (1.666e-06) para admitir que las variables si están muy relacionadas (\(R^2=0.4117\)), es objetivo afirmar aquellos factores específicos en los que la riqueza de especies realmente no varía. En realidad, el factor de las Temporadas no afecta directamente la riqueza de especies de los moluscos, el tamaño de los cantos sí que lo hace. El siguiente modelo propone ver las relaciones de todos los factores con la riqueza de especies y luego la interacción entre los dos principales factores.
Anova2 <- lm(Especies ~ cantos_int*Temporada,
data=riqueza, contrasts=list(cantos_int ="contr.Sum",
Temporada ="contr.Sum"))
Anova(Anova2)
## Anova Table (Type II tests)
##
## Response: Especies
## Sum Sq Df F value Pr(>F)
## cantos_int 250.563 3 15.5689 3.319e-07 ***
## Temporada 4.312 3 0.2680 0.8482
## cantos_int:Temporada 32.562 9 0.6744 0.7278
## Residuals 257.500 48
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como se nota, el factor de las temporadas (T1,T2,T3,T4) no es en realidad una covariable influyente por poseer un p-value de 0.8482, por lo que es mejor realizar sólo un análisis ANOVA con el predictor Tamaño de los Cantos Intermareales. Para responder a la pregunta sobre cuál es el tamaño del canto donde se produce mayor cantidad de especies de moluscos, se ejecuta un anova solo para la variable de especies y el tamaño de los cantos como sigue:
## $statistics
## MSerror Df Mean CV t.value LSD
## 5.364583 48 4.71875 49.08412 2.010635 3.292958
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none cantos_int:temporada 16 0.05
##
## $means
## especies std r LCL UCL Min Max Q25 Q50 Q75
## S1:T1 6.50 1.0000000 4 4.1715271 8.828473 5 7 6.50 7.0 7.00
## S1:T2 6.75 2.2173558 4 4.4215271 9.078473 4 9 5.50 7.0 8.25
## S1:T3 8.25 1.8929694 4 5.9215271 10.578473 7 11 7.00 7.5 8.75
## S1:T4 7.75 2.5000000 4 5.4215271 10.078473 5 11 6.50 7.5 8.75
## S2:T1 7.25 3.3040379 4 4.9215271 9.578473 3 11 6.00 7.5 8.75
## S2:T2 6.00 2.9439203 4 3.6715271 8.328473 3 9 3.75 6.0 8.25
## S2:T3 5.75 4.1932485 4 3.4215271 8.078473 0 10 4.50 6.5 7.75
## S2:T4 4.50 1.2909944 4 2.1715271 6.828473 3 6 3.75 4.5 5.25
## s3:T1 2.25 0.9574271 4 -0.0784729 4.578473 1 3 1.75 2.5 3.00
## s3:T2 4.00 1.8257419 4 1.6715271 6.328473 2 6 2.75 4.0 5.25
## s3:T3 4.00 4.2426407 4 1.6715271 6.328473 0 9 0.75 3.5 6.75
## s3:T4 3.25 0.9574271 4 0.9215271 5.578473 2 4 2.75 3.5 4.00
## S4:T1 2.25 0.5000000 4 -0.0784729 4.578473 2 3 2.00 2.0 2.25
## S4:T2 3.25 1.7078251 4 0.9215271 5.578473 1 5 2.50 3.5 4.25
## S4:T3 1.75 1.7078251 4 -0.5784729 4.078473 0 4 0.75 1.5 2.50
## S4:T4 2.00 1.4142136 4 -0.3284729 4.328473 1 4 1.00 1.5 2.50
##
## $comparison
## NULL
##
## $groups
## especies groups
## S1:T3 8.25 a
## S1:T4 7.75 ab
## S2:T1 7.25 abc
## S1:T2 6.75 abc
## S1:T1 6.50 abcd
## S2:T2 6.00 abcd
## S2:T3 5.75 abcd
## S2:T4 4.50 bcde
## s3:T2 4.00 cde
## s3:T3 4.00 cde
## s3:T4 3.25 de
## S4:T2 3.25 de
## s3:T1 2.25 e
## S4:T1 2.25 e
## S4:T4 2.00 e
## S4:T3 1.75 e
##
## attr(,"class")
## [1] "group"
Concluyendo, los cantos intermareales de tamaño S1 y S2 son los que mayormente agrupan la riqueza de especies de moluscos asociados, inferencialmente, sus medias son muy similares, entrando en la categoría a del test LSD de Fisher. Al ser más exhaustivos, el momento S1:T3 es donde mayor cantidad de especies se agrupan dada la comparación múltiple.
Es más, en la temporada 3 asociada al tamaño del canto S1 existe una riqueza media de especies de hasta 8.25 comparada a la media global de 4.72. Los resultados del ANOVA son similares a una campana gaussiana donde 8.25 y 1.75(S4:T3) son los valores extremos de los datos. Siendo más precisos, en el canto intermareal de tamaño S1 y en la temporada T3, se esperan encontrar hasta 5.92 - 10.58 especies con un 95% de confianza.
————————————————————————————————————————————————————————————————————–
Tapply(Peso ~ dietas, mean,
na.action=na.omit, data=riqueza)
## Dieta A Dieta B Dieta C Dieta D
## 64.62 71.30 73.54 63.24
summary(Peso)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 60.30 63.92 68.15 68.17 72.17 77.10
Este resumen de los promedios por tipo de dieta de los cerdos, da una clara idea de la distribución uniforme de los dato, con una media global de 68.175 Kg y Una desviación estándar de 5.227 Kg, se puede afirmar que los datos soin homogéneos entre sí. Los diagramas de cajas siguientes, anuncian y afirman que no hay cabida de datos atípicos entre las mediciones, lo cual, hace más factible sus análisis.
bp=ggplot(data = cerdos, aes(x = dietas, y=Peso,fill=dietas)) + geom_boxplot(alpha = 0.5)+theme_minimal()+theme(legend.position="top")+ylab("Peso corporal(Kg)")+ ggtitle("Engorde de cerdos según 4 tipos de dieta")+ geom_jitter(alpha = 0.5, color = "limegreen")
bp + scale_fill_brewer(palette = "Dark2")
boxplot(Peso, notch = TRUE,col = "gold2", main = "Distribución del peso de los cerdos", ylab= "Kilogramos",border = "black")
La exploración de los datos, sugiere asumir que las variables principales que son: Tipo de Dieta (A,B,C,D) y el peso en kilogramos como variable de respuesta.Con el resumen anterior, es posible suponer que hay una gran similaridad de las medias entre los cuatro grupos del tratamiento, destacando la dieta tipo C como la que mayor promedio presenta entre todos (73.54 Kg), sin embargo, es mucho mejor someter el cluster de datos a un análisis ANOVA para comparaciones múltiples.
reg1=lm(formula = Peso ~ dietas, data = cerdos)
summary(reg1)
##
## Call:
## lm(formula = Peso ~ dietas, data = cerdos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -3.940 -2.680 0.440 2.095 3.980
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 64.620 1.330 48.593 < 2e-16 ***
## dietasDieta B 6.680 1.881 3.552 0.002655 **
## dietasDieta C 8.920 1.881 4.743 0.000221 ***
## dietasDieta D -1.380 1.881 -0.734 0.473691
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 2.974 on 16 degrees of freedom
## Multiple R-squared: 0.7275, Adjusted R-squared: 0.6764
## F-statistic: 14.24 on 3 and 16 DF, p-value: 8.833e-05
anova(reg1)
## Analysis of Variance Table
##
## Response: Peso
## Df Sum Sq Mean Sq F value Pr(>F)
## dietas 3 377.71 125.902 14.239 8.833e-05 ***
## Residuals 16 141.47 8.842
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Como el p-value del primer análisis Anova (0.00008833) resultó significativo con un \(R^2=0.6764\), significa que al menos dos de las medias comparadas son muy significativas entre sí, de ellas, se destacan las dietas A y B como dietas con diferencia en las medias. Ahora, será necesario validar supuestos de normalidad para los residuos de la regresión, debido principalmente al nivel de significancia del test ANOVA:
par(mfrow=c(2,2))
plot(reg1)
## hat values (leverages) are all = 0.2
## and there are no factor predictors; no plot no. 5
Según el test de Shapiro-Wilks, se planteó la hipótesis nula de que la muestra de los 20 cerdos usados en el experimento presentan una distribución Normal, al elegir un nivel de significancia de 0.05,se plantean las hipótesis:
\(H_0:X\sim N(\mu,\sigma^2)\)
\(H_1:X\nsim N(\mu,\sigma^2)\)
residuoscerdos <- residuals(reg1)
shapiro.test(residuoscerdos)
##
## Shapiro-Wilk normality test
##
## data: residuoscerdos
## W = 0.92181, p-value = 0.1073
Al existir el resultado paramétrico del p-value = 0.1073, muy superior al nivel de error (p< 0.05), se admite la hipótesis nula (\(H_0\)) y por ende, se cumple el supuesto de Normalidad para la población de los 20 cerdos. Con este resultado y el comportamiento normal de los residuos, se procede a realizar un test del Método de Menor Significancia de Fisher (LSD), donde se propende analizar que grupos distan entre si con sus medias:
LSDcerdos=LSD.test(reg1,list("dietas"))
LSDcerdos
## $statistics
## MSerror Df Mean CV t.value LSD
## 8.842 16 68.175 4.361643 2.119905 3.986775
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none dietas 4 0.05
##
## $means
## Peso std r LCL UCL Min Max Q25 Q50 Q75
## Dieta A 64.62 3.345445 5 61.80092 67.43908 60.8 68.6 61.7 65.0 67.0
## Dieta B 71.30 3.068387 5 68.48092 74.11908 67.7 75.0 68.7 71.8 73.3
## Dieta C 73.54 2.987139 5 70.72092 76.35908 69.6 77.1 71.5 74.3 75.2
## Dieta D 63.24 2.416195 5 60.42092 66.05908 60.3 66.7 61.9 63.1 64.2
##
## $comparison
## NULL
##
## $groups
## Peso groups
## Dieta C 73.54 a
## Dieta B 71.30 a
## Dieta A 64.62 b
## Dieta D 63.24 b
##
## attr(,"class")
## [1] "group"
El análisis sugiere que las dietas C y B son las que producen mayor rendimiento en el peso de los porcinos, se sugiere las dietas A y D son similares entre sí ya que producen el menor rendimiento con hasta pesos desde 61.8 hasta 66.05 kg, por ende, las dietas A y D son muy distantes y presentan diferencias con los grupos C y B, este estudio recomienda la dieta tipo C ya que favorece pesajes desde los 70.72 hasta los 76.35 Kg en promedio.
————————————————————————————————————————————————————————————————————–
Tapply(oxi ~ temperatura+sexo, mean,
na.action=na.omit, data=riqueza)
## sexo
## temperatura hembra macho
## alta 2.950 3.075
## baja 1.600 1.675
## media 2.525 2.250
summary(oxi)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.400 1.800 2.400 2.346 2.825 3.400
Según la tabla, se evaluaron los factores del sexo y la temperatura sobre el consumo de oxígeno de una población de 24 cangrejos recolectados. A leve vistazo, puede afirmar que a temperatura alta es donde mayormente se consume oxígeno por marte de los cangrejos machos, esta hipótesis se resume mejor con el siguiente diagrama:
par(mfrow=c(1,2))
boxplot(Oxigeno~Sexo, data=cangrejo,id=list(method="y"),col = "tomato", main = "Consumo de mgO2", xlab= "Sexo del cangrejo",border = "black")
boxplot(Oxigeno~temperatura, data=cangrejo, id=list(method="y"),col = "tomato", main = "Consumo de mgO2", xlab= "Temperatura",border = "black")
Visualmente, hay un gran solapamiento de los rangos intercuartílicos entre los dos sexos de los cangrejos, aunque sus medias disten entre sí, hay una gran similitud de resultados entre ambos grupos, lo que si respecta significancias, resulta en las gráficas del consumo de oxígeno según la temperatura, se afirma que a medida que a temperatura Alta y Media, el Consumo de Oxígeno es mucho mayor comparado a Temperaturas Bajas, es pues, lo que se espera en campo. La siguiente gráfica resumen ambos análisis visuales en uno solo:
Hay una fuerte similaridad entre ambos sexos a la hora de someterlos a diferentes temperaturas, por lo que es extremamente necesario realizar un análisis de regresión que incluyan los dos factores principales en relación al consumo de Oxígeno de los cangrejos:
reg2 <- lm(oxi~temperatura+sexo, data = cangrejo)
summary(reg2)
##
## Call:
## lm(formula = oxi ~ temperatura + sexo, data = cangrejo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.3750 -0.1625 -0.0125 0.1812 0.4000
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.02500 0.09276 32.612 < 2e-16 ***
## temperaturabaja -1.37500 0.11361 -12.103 1.17e-10 ***
## temperaturamedia -0.62500 0.11361 -5.501 2.19e-05 ***
## sexomacho -0.02500 0.09276 -0.270 0.79
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2272 on 20 degrees of freedom
## Multiple R-squared: 0.8802, Adjusted R-squared: 0.8622
## F-statistic: 48.99 on 3 and 20 DF, p-value: 2.124e-09
anova(reg2)
## Analysis of Variance Table
##
## Response: oxi
## Df Sum Sq Mean Sq F value Pr(>F)
## temperatura 2 7.5833 3.7917 73.4463 6.108e-10 ***
## sexo 1 0.0038 0.0038 0.0726 0.7903
## Residuals 20 1.0325 0.0516
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
El análisis de regresión junto al ANOVA de todos los factores, indica una fuerte relación única de la temperatura sobre el consumo de Oxígeno, con hasta p-values de 2.187e-10, lo cual sugiere un posterior análisis de varianza aislado. Por otra parte, el sexo no influye para nada en las diferencias de consumo de oxígeno, y esto se comprueba de la siguiente Forma:
\(H0:\mu_m=\mu_h\)
\(H1::\mu_m \neq \mu_h\)
t.test(oxi~sexo, alternative='two.sided', conf.level=0.99, var.equal=FALSE,data=cangrejo)#Prueba de t-student para dos muestras independientes
##
## Welch Two Sample t-test
##
## data: oxi by sexo
## t = 0.097854, df = 21.933, p-value = 0.9229
## alternative hypothesis: true difference in means is not equal to 0
## 99 percent confidence interval:
## -0.6953506 0.7453506
## sample estimates:
## mean in group hembra mean in group macho
## 2.358333 2.333333
Conclusión:no hay diferencias significativas entre los dos tratamientos A y B. Es más, para comprobar que efectivamente no existe diferencias en los estimadores media y varianza, se procede a realizar un test F de dos colas para muestras independientes:
var.test(oxi ~ sexo, alternative='two.sided', conf.level=.98, data=cangrejo)#Prueba de Fisher
##
## F test to compare two variances
##
## data: oxi by sexo
## F = 0.89498, num df = 11, denom df = 11, p-value = 0.8573
## alternative hypothesis: true ratio of variances is not equal to 1
## 98 percent confidence interval:
## 0.2005582 3.9937821
## sample estimates:
## ratio of variances
## 0.894978
Por lo tanto, se acepta la hipótesis Nula (\(H_0\)).Como se dijo, ahora se diseña un análisis ANOVA con test LSD para saber qué temperaturas son significativas en el Consumo de Oxígeno en los cangrejos sin considerar el Sexo.
reg3= lm(oxi~temperatura, data = cangrejo)
summary(reg3)
##
## Call:
## lm(formula = oxi ~ temperatura, data = cangrejo)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.3875 -0.1562 0.0000 0.1688 0.3875
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.01250 0.07854 38.357 < 2e-16 ***
## temperaturabaja -1.37500 0.11107 -12.380 4.09e-11 ***
## temperaturamedia -0.62500 0.11107 -5.627 1.39e-05 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.2221 on 21 degrees of freedom
## Multiple R-squared: 0.8798, Adjusted R-squared: 0.8683
## F-statistic: 76.84 on 2 and 21 DF, p-value: 2.187e-10
anova(reg3)
## Analysis of Variance Table
##
## Response: oxi
## Df Sum Sq Mean Sq F value Pr(>F)
## temperatura 2 7.5833 3.7917 76.84 2.187e-10 ***
## Residuals 21 1.0362 0.0493
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
PosAnovaTemp=LSD.test(reg3,"temperatura")
PosAnovaTemp
## $statistics
## MSerror Df Mean CV t.value LSD
## 0.04934524 21 2.345833 9.469466 2.079614 0.2309805
##
## $parameters
## test p.ajusted name.t ntr alpha
## Fisher-LSD none temperatura 3 0.05
##
## $means
## oxi std r LCL UCL Min Max Q25 Q50 Q75
## alta 3.0125 0.2232071 8 2.849172 3.175828 2.7 3.4 2.875 3.00 3.125
## baja 1.6375 0.1922610 8 1.474172 1.800828 1.4 1.9 1.475 1.65 1.800
## media 2.3875 0.2474874 8 2.224172 2.550828 2.0 2.7 2.250 2.40 2.600
##
## $comparison
## NULL
##
## $groups
## oxi groups
## alta 3.0125 a
## media 2.3875 b
## baja 1.6375 c
##
## attr(,"class")
## [1] "group"
Todas las tres temperaturas (Alta, Media, Baja) poseen alto nivel de significancia entre sí, tanta que todos su p-values son verosímiles a la regresión (\(R^2=0.8683\)), además y para concluir, se cumple que las temperaturas altas son las que obligan a los crustáceos a consumir mayor cantidad de Oxígeno (mg) con picos de hasta 3.0125 mg en promedio. Se espera que los cangrejos sometidos a temperaturas altas SIN importar su sexo, pueden consumir rangos de 2.84 a 3.17 mgO2 con un 95% de confianza, es más, a esta temperatura, han habido casos de consumir hasta 3.4 mgO2 comparados a los 2.34 mgO2 de promedio global.