Diseño de cuadrado latino.
En el Diseño de Cuadrado Latino (DCL) se tienen:
- Dos factores de bloque: se controlan.
- Un factor de interés - tratamiento: se mide.
Los tres factores, de bloque y tratamiento tienen la misma cantidad de niveles.
En el DCL se tienen 4 fuentes de variabilidad:
- Los \(p\) tratamientos, \(i=1,2,...,p\)
- El factor bloque I - también llamado “bloque columna”
- El factor bloque II - también llamado “bloque fila”
- El error aleatorio
Se llama cuadro latino por dos razones: es un cuadrado debido a que tiene la restricción adicional de que los tres factores involucrados se prueban en la misma cantidad de niveles, y es latino porque se utilizan letras latinas para denotar a los tratamientos o niveles del factor de interés.
Situación inicial.
Un experimentador estudia los efectos que tienen cinco formulaciones diferentes de la carga propulsora utilizada en los sistemas de expulsión de la tripulación de un avión basado en la rapidez de combustión. Cada formulación se hace con un lote de materia prima que sólo alcanza para probar cinco formulaciones. Además, las formulaciones son preparadas por varios operadores, y puede haber diferencias sustanciales en las habilidades y experiencia de los operadores.
En la anterior situación tenemos los siguientes factores:
- Factor tratamiento: tipo de formulación de carga propulsora.
- Factor fila: lote de materia prima.
- Factor columna: Operador.
\(Lotes~de~materia~prima\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
---|---|---|---|---|---|
\(1\) | \(A=24\) | \(B=20\) | \(C=19\) | \(D=24\) | \(E=24\) |
\(2\) | \(B=17\) | \(C=24\) | \(D=30\) | \(E=27\) | \(A=36\) |
\(3\) | \(C=18\) | \(D=38\) | \(E=26\) | \(A=27\) | \(B=21\) |
\(4\) | \(D=26\) | \(E=31\) | \(A=26\) | \(B=23\) | \(C=22\) |
\(5\) | \(E=22\) | \(A=30\) | \(B=20\) | \(C=29\) | \(D=31\) |
Modelo de datos
Aunque el modelo estadístico se puede expresar de distintas maneras, suele utilizarse el modelo de los efectos:
\[y_{ijk}=u+\alpha_i+\tau_j+\beta_k+ \epsilon_{ijk} \\ i=1,2,...,p \\ j=1,2,...,p \\k=1,2,...,p\]
Donde:
- \(\mu:~media~global\)
- \(\alpha_i: efecto~del~renglón~i-ésimo\)
- \(\tau_j: efecto~del~j-ésimo~tratamiento\)
- \(\beta_k: efecto~de~la~columna~k-ésima\)
- \(\epsilon_{ijk}:~error~aleatorio\)
Notación usada
Totales
Total \(y_{i..}\) por fila \(i\)
El total por fila \(i\) se calcula de la siguiente manera:
\[y_{i..}=\sum_{k=1}^p y_{i.k}\]
Total \(y_{..k}\) por columna \(k\)
El total por columna \(k\) se calcula de la siguiente manera:
\[y_{..k}=\sum_{i=1}^p y_{i.k}\]
Total \(y_{.j.}\) por tratamiento \(j\)
El total por tratamiento \(j\) se calcula de la siguiente manera:
\[y_{.j.}=\sum_{i=1}^p \sum_{k=1}^p y_{i.k}\]
Total global \(y_{...}\)
El total global \(y_{...}\) se calcula de la siguiente manera:
\[y_{...}=\sum_{i=1}^p \sum_{k=1}^p y_{i.k}\]
Medias
Media \(\bar{y_{i..}}\) para las filas
La media \(\bar{y_{i..}}\) para las filas se calcula de la siguiente manera:
\[\bar{y_{i..}}= \frac{y_{i..}}{p}\]
Media \(\bar{y_{..k}}\) para las columnas
La media \(\bar{y_{..k}}\) para las columnas se calcula de la siguiente manera:
\[\bar{y_{..k}}= \frac{y_{..k}}{p}\]
Media \(\bar{y_{.j.}}\) para los tratamientos
\[\bar{y_{.j.}}= \frac{y_{.j.}}{p}\]
Media global \(\bar{y_{...}}\)
\[\bar{y_{...}}= \frac{y_{...}}{N}\]
Análisis de varianza ANOVA
1. Planteamiento de hipótesis
Las hipótesis para el por presente diseño son las siguientes:
1.1 Hipótesis basadas en las medias.
\[H_0: \mu_1 =\mu_2=...=\mu_a \\ H_1: \mu_i \neq \mu_j, ~para~al~menos~un~par ~(i,j)~con~ i\neq j\]
1.2 Hipótesis basadas en los efectos.
\[H_0: \tau_1=\tau_2=...=\tau_a=0 \\ H_1: \tau_i \neq 0,~para~al~menos~un~i \]
2. Cálculo de sumas de cuadrados \(SS\)
Los cálculos para las sumas de cuadrados son los siguientes:
\[SS_{tratamientos}=\left[ \frac{1}{p}\sum_{j=1}^p y_{.j.}^2 \right] - \frac{y_{...}^2}{N}\]
\[SS_{filas}=\left[ \frac{1}{p}\sum_{j=1}^p y_{i..}^2 \right] - \frac{y_{...}^2}{N}\]
\[SS_{columnas}=\left[ \frac{1}{p}\sum_{j=1}^p y_{..k}^2 \right] - \frac{y_{...}^2}{N}\]
\[SS_{total}=\sum_{i=1}^p\sum_{j=1}^p\sum_{k=1}^p y_{ijk}^2 - \frac{y_{...}^2}{N}\]
\[SS_{total}=SS_{tratamientos}+SS_{filas}+SS_{columnas}+SS_{error}\]
3. Cálculo de los grados de libertad \(GL\)
\[GL_{tratamientos}=p-1\]
\[GL_{filas} = p-1 \]
\[GL_{columnas} = p-1 \]
\[GL_{error}= (p-2)(p-1)\]
\[GL_{total}=p^2-1\]
4. Cálculos de cuadrados medios \(MS\)
\[MS_{tratamientos}=\frac{SS_{tratamientos}}{GL_{tratamientos}}\]
\[MS_{filas}=\frac{SS_{filas}}{GL_{filas}}\]
\[MS_{columnas}=\frac{SS_{columnas}}{GL_{columnas}}\]
\[MS_{error}=\frac{SS_{error}}{GL_{error}}\]
\[MS_{total} = \frac{SS_{total}}{GL_{total}}\]
5. Cálculo de estadístico de prueba \(F_0\)
El estadístico
\[F_0=\frac{MS_{tratamientos}}{MS_{error}}\]
Si
\[F_0> F_{\alpha,~p-1,~((p-2)(p-1)} \rightarrow Rechazo~H_0\]
Estimación de parámetros del modelo
El modelo estadístico de datos se encuentra dado por la siguiente expresión:
\[y_{ijk}=u+\alpha_i+\tau_j+\beta_k+ \epsilon_{ijk} \\ i=1,2,...,p \\ j=1,2,...,p \\k=1,2,...,p\]
Donde:
- \(\mu:~media~global\)
- \(\alpha_i: efecto~del~renglón~i-ésimo\)
- \(\tau_j: efecto~del~j-ésimo~tratamiento\)
- \(\beta_k: efecto~de~la~columna~k-ésima\)
- \(\epsilon_{ijk}:~error~aleatorio\)
Estimación de la media global \(\mu\)
Si \(\hat{\mu}\) es un estimador para la media global \(\mu\) entonces:
\[\hat{\mu}=\bar{y_{...}}\]
Estimación para el efecto del \(i-ésima\) fila \(\alpha_i\)
Si \(\hat{\alpha_i}\) es un estimador para el efecto \(\alpha\) de la fila \(i\) entonces:
\[\hat{\alpha_i}=\bar{y_{i..}}-\bar{y_{...}} \\ i= 1,2,...,p\]
Estimación para el efecto del \(k-ésima\) columna \(\beta_k\)
Si \(\hat{\beta_k}\) es un estimador para el efecto \(\beta\) de la columna \(k\) entonces:
\[\hat{\beta_k}=\bar{y_{..k}}-\bar{y_{...}} \\ k= 1,2,...,p\]
Estimación para el efecto del \(j-ésimo\) tratamiento \(\tau_j\)
Si \(\hat{\tau_j}\) es un estimador para el efecto \(\tau\) del tratamiento \(j\) entonces:
\[\hat{\tau_j}=\bar{y_{.j.}}-\bar{y_{...}} \\ j= 1,2,...,p\]
Residuales \(e_{ijk}\)
Se definen los residuales \(e_{ijk}\) como la diferencia entre la observación real \(y_{ijk}\) y la observación estimada por el modelo de datos \(\hat{y_{{ijk}}}\):
\[e_{ijk}= y_{ijk} - \hat{y_{ijk}}\]
Por lo que los residuales \(e_{ijk}\)
\[e_{ijk}=y_{ijk}-\bar y_{i..} - \bar y_{.j.} - \bar y_{..k} + 2 \bar y_{...}\]
Ejemplo en \(RStudio\) - ANOVA
Tomaremos como ejemplo para resolver en RStudio la situación inicial en la que:
Un experimentador estudia los efectos que tienen cinco formulaciones diferentes de la carga propulsora utilizada en los sistemas de expulsión de la tripulación de un avión basado en la rapidez de combustión. Cada formulación se hace con un lote de materia prima que sólo alcanza para probar cinco formulaciones. Además, las formulaciones son preparadas por varios operadores, y puede haber diferencias sustanciales en las habilidades y experiencia de los operadores.
\(Lotes~de~materia~prima\) | \(1\) | \(2\) | \(3\) | \(4\) | \(5\) |
---|---|---|---|---|---|
\(1\) | \(A=24\) | \(B=20\) | \(C=19\) | \(D=24\) | \(E=24\) |
\(2\) | \(B=17\) | \(C=24\) | \(D=30\) | \(E=27\) | \(A=36\) |
\(3\) | \(C=18\) | \(D=38\) | \(E=26\) | \(A=27\) | \(B=21\) |
\(4\) | \(D=26\) | \(E=31\) | \(A=26\) | \(B=23\) | \(C=22\) |
\(5\) | \(E=22\) | \(A=30\) | \(B=20\) | \(C=29\) | \(D=31\) |
Las hipótesis para este diseño experimental son las siguientes:
\[H_0: \mu_1 = \mu_2 = \mu_3 =\mu_4 =\mu_5 \\ \mu_i \neq \mu_j \\ Para~al~menos~un ~i,j~con~i \neq j~con~i,j=1,2,3,4,5 \]
#---- Cargar los datos del experimento y guardarlos en un data frame ----
library(readxl)
datos <- read_excel("datos.xlsx")
#-- Establecer los factores del modelo (Factor de interés, factor fila, factor columna) --
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
#------------------ Plantear modelo de datos ------------------
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
#--------------- Análisis de varianza ANOVA ---------------
anova <- aov (modelo)
summary(anova)
## Df Sum Sq Mean Sq F value Pr(>F)
## datos$tratamiento 4 330 82.50 7.734 0.00254 **
## datos$fila 4 68 17.00 1.594 0.23906
## datos$columna 4 150 37.50 3.516 0.04037 *
## Residuals 12 128 10.67
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
qf (0.05, 4, 12, lower.tail = FALSE)
## [1] 3.259167
Del análisis de varianza, con nivel de significancia \(\alpha= 0.05\), \(F_0 > F_{\alpha,~p-1,~(p-2)(p-1)}\) \((7.734>3.259167)\) se concluye que se rechaza la hipótesis nula \(H_0\): existe evidencia estadística suficiente para afirmar que al menos un par de medias de los tratamientos son distintas.
Ejemplo en \(RStudio\) - Verificación supuesto de normalidad.
Verificación gráfica
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# -- Realizamos la gráfica cuantil - cuantil de los residuales del ANOVA --
library(car)
qqPlot (anova, main= "Gráfico Cuantil - Cuantil", id=FALSE)
Del gráfico Cuantil-Cuantil se observa algunos posibles problemas en las colas de la gráfica, puede que no exista normalidad en los residuales, por lo que es necesario pasar a una verificación analítica de la normalidad.
Verificación analítica mediante Shapiro-Wilk.
Para la prueba tenemos las siguientes hipótesis:
\[H_0: e_{ijk} \sim N(0, \sigma^2) \\ H_1: e_{ijk} \nsim N(0, \sigma^2) \\ i,j,k =1,2,3,4,5 \]
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# -- Realizamos la prueba de Normalidad Shapiro - Wilk --
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.92239, p-value = 0.05811
El estadístico de prueba \(W\) para la prueba de Shapiro - Wilk resultó ser igual a \(W = 0.92239\) se debe comparar con el estadístico teórico \(W_{1-\alpha}\) con nivel de significancia \(\alpha=0.05\) y \(25\) residuales. Este valor de tabla resulta ser \(W_{0.95}=0.985\). Cómo \(W<W{1-\alpha}\) no existe evidencia estadística suficiente para rechazar \(H_o\) por lo que se concluye que los residuales provienen de una distribución normal según el contraste de Shapiro - Wilk
Ejemplo en \(RStudio\) - Verificación de Homocedasticidad.
Verificación gráfica - homocedasticidad.
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# ----- Graficamos valores predichos vs Residuales -----
predichos <- anova$fitted.values
residuales <- anova$residuals
plot(predichos,residuales, main="Predichos VS Residuales", xlab="Valores predichos", ylab="Residuales",, ylim = c(-5,6), xlim=c(15,35))
En la verificación gráfica de la homocedasticidad no se observa patrón claro alguno, por lo que no existe evidencia gráfica para dudar de la homocedasticidad.
Verificación analítica mediante Bartlett
Para la prueba tenemos las siguientes hipótesis:
\[H_0: \sigma_1^2 = \sigma_2^2 = \sigma_3^2 = \sigma_4^2 = \sigma_5^2 =\sigma^2 \\ H_1: \sigma_i^2 \neq \sigma_j^2~para~al~menos~un~par~(i,j)~con~i \neq j \\ i,j=1,2,3,4,5\]
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# ----- Prueba de Bartlett -----
bartlett.test(anova$residuals~datos$tratamiento)
##
## Bartlett test of homogeneity of variances
##
## data: anova$residuals by datos$tratamiento
## Bartlett's K-squared = 6.8747, df = 4, p-value = 0.1427
qchisq(0.05,4,lower.tail = FALSE)
## [1] 9.487729
La prueba de Bartlett arrojó un estadístico de prueba \(X_0^2= 6.8747\), el estadístico teórico para nivel de significancia \(\alpha=0.05\) y \(p-1\) grados de libertad de los tratamientos resulta en \(X_{0.05,~4}^2=9.487729\). Como \(X_0^2<X_{\alpha,~a-1}\) entonces no existe evidencia suficiente para rechazar \(H_0\) por lo que las varianzas de los tratamientos son iguales.
Ejemplo en \(RStudio\) - Verificación de independencia.
Verificación gráfica - independencia.
Para la verificación gráfica de la independencia supondremos que los las observaciones se realizaron en el mismo orden mostrado en la tabla típica de la Situación inicial.
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# ----- Grafico residuales como serie de tiempo -----
Orden_de_corrida <- c(1:25)
residuales <- anova$residuals
plot(Orden_de_corrida, residuales, xlab="Tiempo", ylab="Residuales", main="Orden de Corrida vs Residuales", xlim = c(0,26), ylim=c(-4,6))
En el gráfico de Orden de corrida VS Residuales no se observa un patrón claro en los datos, por lo que no existe evidencia para dudar sobre la independencia entre los residuales.
Verificación analítica independencia - Prueba Durbin - Watson
Para la realización de la prueba de independencia se tienen las siguientes hipótesis:
\[H_0: \rho = 0 \\ H_1: \rho \neq 0\]
Siendo \(\rho\) el parámetro que representa la correlación entre residuos consecutivos, es decir, \(Correlación(e_t,~e_{t+1})\)
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# ----- Prueba de Durbin - Watson -----
library(car)
durbinWatsonTest(modelo)
## lag Autocorrelation D-W Statistic p-value
## 1 -0.1253125 2.1975 0.646
## Alternative hypothesis: rho != 0
El estadístico de prueba \(d_0\) para la prueba \(Durbin - Watson\) resultó en \(d_0=2.19\), para un nivel de significancia \(\alpha = 0.05\), \(k=5\) tratamientos y \(25\) residuales, \(d_L=0,953\), \(d_U=1,886\), \(4-d_U=2,114\) y \(4-d_L=3,047\). La prueba no es concluyente en este caso.
Pruebas de rángos múltiples.
Cuando se rechaza la hipótesis de igualdad de los cinco tratamientos, es natural preguntarse cuáles de ellos son diferentes entre sí. Para averiguarlo se utiliza alguna de las pruebas que ya se estudiaron “Comparaciones o pruebas de rango múltiples”:
Prueba Least Significant Difference para DBCA.
1. Hipótesis
\[H_o: \mu_i = \mu_j \\ H_1 : u_i \neq u_j \\ \forall~i \neq j ,\\ i,j = 1, 2,...,p \]
2. Cálculo de LSD
La diferencia mínima significativa \(LSD\) es igual a:
\[LSD = t_{\frac{\alpha}{2},~(p-2)(p-1)} \sqrt{\frac{2MS_{error}}{p}}\]
3. Comparación \(LSD\) con valor absoluto de diferencia de medias puntuales \(|\bar{y_{i.}}-\bar{y_{j.}}|\)
\[Si,~|\bar{y_{i.}}-\bar{y_{j.}}|>LSD ~ \rightarrow Rechazo~H_o\]
Ejemplo \(RStudio\) contraste LSD
# ---------- Realizamos el análisis de varianza --------------
library(readxl)
datos <- read_excel("datos.xlsx")
datos$tratamiento <- as.factor(datos$tratamiento)
datos$fila <- as.factor(datos$fila)
datos$columna <- as.factor(datos$columna)
modelo <- lm(datos$observacion~(datos$tratamiento+datos$fila+datos$columna))
anova <- aov (modelo)
# ----- Contraste LSD -----
library(agricolae)
pruebaLSD <- LSD.test(y=anova, trt="datos$tratamiento", group=TRUE, console=TRUE)
##
## Study: anova ~ "datos$tratamiento"
##
## LSD t Test for datos$observacion
##
## Mean Square Error: 10.66667
##
## datos$tratamiento, means and individual ( 95 %) CI
##
## datos.observacion std r se LCL UCL Min Max Q25 Q50 Q75
## A 28.6 4.669047 5 1.460593 25.41764 31.78236 24 36 26 27 30
## B 20.2 2.167948 5 1.460593 17.01764 23.38236 17 23 20 20 21
## C 22.4 4.393177 5 1.460593 19.21764 25.58236 18 29 19 22 24
## D 29.8 5.403702 5 1.460593 26.61764 32.98236 24 38 26 30 31
## E 26.0 3.391165 5 1.460593 22.81764 29.18236 22 31 24 26 27
##
## Alpha: 0.05 ; DF Error: 12
## Critical Value of t: 2.178813
##
## least Significant Difference: 4.500536
##
## Treatments with the same letter are not significantly different.
##
## datos$observacion groups
## D 29.8 a
## A 28.6 a
## E 26.0 ab
## C 22.4 bc
## B 20.2 c
Las medias que pertenecen a grupos con letras comunes son estadísticamente iguales