Con el fin de saber si el tipo de humedal, alimentado por agua subterránea (ST) o agua de precipitación (P), influye en la tasa de metano producido por este, se tomaron muestras de suelo de tres humedales diferentes para llevarlas al laboratorio y analizarlas.
En este estudio se midió la tasa de producción de metano en m mol/l/hr y se deben analizar los datos para lograr confirmar o desmentir la dependencia de esta medida frente al tipo de humedal.

Datos

metano <- read_excel("~/Bioestadistica/metano.xlsx")

Revisión y cambio de formato

str(metano)
metano$Metano <- as.numeric(metano$Metano)
Se muestra primero el tipo de variable en cada columna y se verifica que se lea como tal. Se confirma que la columna metano sea numérica (puede haber sido leída como factor), ya que esta se necesita en ese formato para hacer el siguiente modelo y análisis estadístico.

Modelo

modelo <- lm(Metano ~ Tipo, data=metano)
summary(modelo)
## 
## Call:
## lm(formula = Metano ~ Tipo, data = metano)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.0333 -1.7058 -0.5533  1.3567  5.0467 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.0333     0.8249   2.465   0.0254 *  
## TipoST        6.4200     1.1666   5.503 4.82e-05 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.475 on 16 degrees of freedom
## Multiple R-squared:  0.6543, Adjusted R-squared:  0.6327 
## F-statistic: 30.28 on 1 and 16 DF,  p-value: 4.816e-05
Se utiliza lm ya que, en este caso los humedales solo presentan dos grupos, ST y P (subterráneo y precipitación).

Boxplot comparativo

boxplot(Metano ~ Tipo, data=metano,
        xlab="Tipo de humedal", 
        ylab="Produccion de metano (m mol/l/hr)",
        main="Produccion de metano segun tipo de humedal",
        col=c("lightblue", "lightgreen"))

Se utiliza un diagrama de cajas (boxplot) para así comparar la producción de metano entre los dos tipos de humedales. Se observa que la media/mediana de agua subterránea (ST) es claramente mayor que la de agua de precipitación (P).

Verificación de modelo

plot(modelo)

plot(modelo, which=2)                  

shapiro.test(residuals(modelo)) 
## 
##  Shapiro-Wilk normality test
## 
## data:  residuals(modelo)
## W = 0.91629, p-value = 0.1111
library(car)
leveneTest(Metano ~ Tipo, data=metano)
## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  1  2.1177 0.1649
##       16
Se utilizan tanto gráficas como pruebas para verificar los supuestos del modelo lineal. Se mira la gráfica Q-Q residuals para verificar la normalidad de los residuos (que sigan aproximadamente la línea recta) y la Residuals vs Fitted para revisar si las varianzas son similares y que no tengan patrones (que estén dispersos con respecto a la línea 0, en este caso se ubican similar a una línea vertical sobre la media de los grupos)
Las pruebas, a su vez, comprueban lo mismo pero son realizadas como un complemento que nos regala una mayor seguridad de lo observado en las gráficas (Shapiro - prueba si los residuos están en una distribución normal, Levene - prueba la homogeneidad de las varianzas entre los grupos). Estas trabajan con una hipótesis nula, para Shapiro es que los datos sí se distribuyen de manera normal y para Levene es que las varianzas de los grupos son iguales, y con un valor de p que puede ser mayor o menor a 0.05 y dependiendo se este se acepta o se rechaza la hipótesis.
Se logra comprobar que sí se cumple la linealidad. Con un valor de p=0.1111 para la prueba de Shapiro-Wilk, la hipótesis se confirma (p > 0.05) y se dice que los datos si se comportan de manera normal (como lo muestra la gráfica Q-Q residuals donde se sigue aproximadamente la línea). Con un valor de p=0.1649 para la prueba Levene, la hipótesis no se rechaza (p > 0.05) y no hay evidencia de que las varianzas de los dos tipos de humedal sean diferentes.

Interpretación de los resultados y conclusión

Con base en las gráficos y lo obtenido en las pruebas de Shapiro-Wilk y Levene se puede decir que el caso de estudio sí cumple con los supuestos de un modelo lineal, tanto que los residuos se comportan de manera normal como que la dispersión entre grupos es similar. Gracias a esto se puede llegar a la conclusión con el análisis del modelo, recíen comprobado como adecuado para el caso. Nos mostró entonces un F-statistic=30.28, un valor muy alto que nos dice que la varianza entre grupos es mucha (no dentro del mismo grupo), y un p=4.816e-05, el cual es mucho menor a 0.05, es decir, la diferencia de producción de metano entre los tipos de humedales es significativa estadísticamente y por eso es un factor determinante en la emisión observada.