Se deseaba evaluar la necesidad de aplicar un tratamiento de enfriamiento a plantas de azalea antes de venderlas, para así favorecer una floración abundante y homogénea en el momento de la venta.
En el estudio se obtuvieron plantas (seis en octubre, seis en diciembre y seis en febrero), tratando la mitad de las mismas con frío y dejando las otras sin tratar. Se contó el número de yemas florales cerradas y abiertas en cada una de las plantas.
Este experimento es factorial 3x2 con tres repeticiones. Se debe analizar estos datos para estudiar si la proporción de yemas abiertas depende del tratamiento y de la época, o de una combinación de ambas.
datos=read_excel("~/Documents/Bioestadistica/Parcial I/Azalea.xlsx")
Se calculó la proporción de yemas abiertas porque los datos originales son frecuencias de las yemas abiertas y cerradas en cada planta; si utilizáramos solo estos conteos absolutos, habría un sesgo porque no todas las plantas tienen el mismo número total de yemas, con la proporción se estandariza los datos.
datos$prop_abiertas <- datos$abiertas / (datos$abiertas + datos$cerradas)
knitr::kable(head(datos))
rep | trat | epoca | abiertas | cerradas | prop_abiertas |
---|---|---|---|---|---|
1 | nofrio | 1 | 83 | 75 | 0.5253165 |
1 | nofrio | 2 | 115 | 53 | 0.6845238 |
1 | nofrio | 3 | 188 | 5 | 0.9740933 |
1 | frio | 1 | 103 | 99 | 0.5099010 |
1 | frio | 2 | 76 | 77 | 0.4967320 |
1 | frio | 3 | 176 | 3 | 0.9832402 |
aggregate(prop_abiertas ~ trat + epoca, data = datos, mean)
## trat epoca prop_abiertas
## 1 frio 1 0.5108653
## 2 nofrio 1 0.5265647
## 3 frio 2 0.5012488
## 4 nofrio 2 0.6673037
## 5 frio 3 0.9611413
## 6 nofrio 3 0.9576754
En un primer instante podemos observar que la proporción de yemas abiertas no varía mucho entre los tratamientos, con respecto a las épocas se podría decir que es un poco más significativa. Esto también lo podemos observar en la distribución de los datos en el siguiente diagrama de dispersión:
datos$epoca <- factor(datos$epoca, levels = c(1,2,3))
ggplot(datos, aes(x= epoca, y= prop_abiertas, color=trat)) +
geom_point() + theme_light()
datos$epoca <- factor(datos$epoca, levels = c(1,2,3))
datos$trat <- factor(datos$trat, levels = c("nofrio","frio"))
Se pasan las variables a factores porque son categóricas, es decir que están representadas por un número, si se dejaran como numéricas se corre el riesgo de que R las interprete como variables cuantitativas y realice operaciones con estos números que no representan valores, sino épocas del año.
modelo=lm(prop_abiertas ~ trat + epoca + trat*epoca, data = datos)
summary(modelo)
##
## Call:
## lm(formula = prop_abiertas ~ trat + epoca + trat * epoca, data = datos)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.027769 -0.011786 -0.002883 0.016887 0.022099
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.52656 0.01082 48.649 3.73e-15 ***
## tratfrio -0.01570 0.01531 -1.026 0.325
## epoca2 0.14074 0.01531 9.194 8.80e-07 ***
## epoca3 0.43111 0.01531 28.164 2.49e-12 ***
## tratfrio:epoca2 -0.15036 0.02165 -6.946 1.55e-05 ***
## tratfrio:epoca3 0.01917 0.02165 0.885 0.393
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.01875 on 12 degrees of freedom
## Multiple R-squared: 0.9942, Adjusted R-squared: 0.9918
## F-statistic: 409.8 on 5 and 12 DF, p-value: 5.666e-13
La normalidad es un supuesto clave en el modelo de regresión lineal, que exige que los residuos (los errores de la predicción) sigan una distribución normal.
La prueba de Shapiro-Wilk es una prueba de hipótesis que evalúa si un conjunto de datos se distribuye normalmente con una hipótesis nula (de que sí lo cumple). Un valor p alto indica que el conjunto de datos se distribuye normalmente; un valor p bajo, que no se distribuye normalmente.
plot(modelo)
shapiro.test(resid(modelo))
##
## Shapiro-Wilk normality test
##
## data: resid(modelo)
## W = 0.91909, p-value = 0.1246
Nuestro valor p > 0.05 por lo tanto no hay evidencia para rechazar que los residuos siguen una distribución normal, también lo podemos observar en los gráficos.
En octubre (época 3) y sin tratamiento frío es significativo, con un estimado de 52,6 % de yemas abiertas
Tanto diciembre como febrero (sin tratamiento frío) aumentan significativamente respecto de octubre, con un incremento de 14 y 43 por ciento de yemas abiertas respectivamente.
En diciembre con tratamiento frío disminuye significativamente la proporción de yemas abiertas
La época tiene un efecto muy fuerte en la proporción de las yemas abiertas, especialmente en febrero (sin tratamiento frío), lo que quiere decir que las plantas florecen más y de manera natural en esta época. El tratamiento frio solo es significativo en diciembre, donde reduce la proporción de yemas abiertas; en febrero aumenta la proporción de manera no significativa.
with(datos, interaction.plot(epoca, trat, prop_abiertas,
fun = mean,
type = "b",
col = c("red","blue"),
pch = c(16,18),
xlab = "Época",
ylab = "Proporción media de yemas abiertas",
trace.label = "Tratamiento"))
Las azaleas siguen su propio reloj biológico, por lo que la mayor floración ocurre en febrero, cuando las temperaturas aumentan de manera natural. Los tratamientos de frío no incrementan la cantidad de yemas abiertas; por el contrario, en épocas en las que la temperatura ya es baja, estos tratamientos pueden incluso reducir el número de yemas abiertas. Por consiguiente, la época del año es el factor principal que determina la apertura de yemas, mientras que el enfriamiento solo resultaría útil cuando se buscara preservar las flores en latencia por más tiempo.