Diseño desbalanceado

En este cuaderno se explicará cómo se haría un análisis de resultados de un diseño experimental, dado el caso de que estuvieran ausentes algunos datos que sean necesarios. A lo anterior se le conoce como un diseño desbalanceado.

Primero, generamos los datos.

set.seed(123)

porc_germ = c(
  rnorm(40,60,6),
  rnorm(40,70,7),
  rnorm(40,80,8)
)

acido= gl(3, 40, 120, c("c0", "c1", "c2"))

datos = data.frame(acido,porc_germ)
head(datos)

table(datos$acido)

## 
## c0 c1 c2 
## 40 40 40

datos_des = datos[-c(50,111,120),]

table(datos_des$acido)

## 
## c0 c1 c2 
## 40 39 38

Hipótesis del modelo: Todas las medidas de los tratamientos son iguale.

\[H_0:\mu_{co} = \mu_{c1} = \mu_{c2}\]

Analisis de varianza balanceada.

mod1 = aov(porc_germ~acido, datos)
summary(mod1)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## acido         2   7835    3918   98.15 <2e-16 ***
## Residuals   117   4670      40                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Conclusión.

Al tener un nivel de significiencia del 0.05 (5%), se evidencia estadísticamente que se rechaza la hipótesis nula, lo que significa que, al menos una de las medidas de los ácidos empleados en el experiemnto es diferente, por lo tanto, hay difernecia en el procentaje de germinación.

mu=mean(datos$porc_germ)
boxplot(datos$porc_germ ~datos$acido)
abline(h=mu, lty=2, col="purple")

Se observa que, en “c1”, hay un dato atípico, además, se observa que usando el ácido c2 se obtiene un mayor porcentaje de germinación y por lo tanto, las medidas son diferentes.

Análisis de varianza desbalanceada (con los datos desbalanceados).

mod2 = aov(porc_germ~acido, datos_des)
summary(mod2)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## acido         2   7898    3949   98.39 <2e-16 ***
## Residuals   114   4576      40                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La media del ácido incrementó, al tener que estimar nuevos datos. Nuevamente, se rechaza la hipótesis nula.

mod3 = lm(porc_germ ~ acido, datos_des)
library(car)

## Warning: package 'car' was built under R version 4.2.3

## Loading required package: carData

## Warning: package 'carData' was built under R version 4.2.3

library(carData)
mod3_res = Anova(mod3, type = 'II')
mod3_res

Conclusión.

Siendo que el nivel de significiencia es del 0.05 (5%), se evidencia estadísticamente que se rechaza la hiótesis nula, significando que, al menos una de las medias de los ácidos empleados durante el experimento es diferente, por lo tanto, hay diferencia en el porcentaje de germinación.
Nota: Se usa test tipo II o conocido como método de Yates, para ordenar los datos y realizar el análisis de varianza de los bloques y tratamientos.
La veracidad de los dos métodos anteriores no afectarán los resultados del ANOVA.
Al tener un solo factor, los metodos son útiles sin importar si son balanceados o desbalanceados. Si se añaden más variables (bloques, etc), es necesario otro metodo de análisis.

Aplicación de bloques completos y generalizados.

set.seed(123)

porc_germ = c(
  rnorm(40, 60, 6),
  rnorm(40, 70, 7),
  rnorm(40, 80, 8)
)

bloq = gl(3, 40, 120, c('B0','B1','B2'))
acido = gl(4, 10, 120, c('C0','C1','C2','C3'))

datos = data.frame(acido, bloq, porc_germ)
# datos_des = datos[-c(50, 111, 120), ]
datos_des = datos [-sample(120, 5), ]
datos_des

table(datos_des$bloq, datos_des$acido)

##     
##      C0 C1 C2 C3
##   B0 10  8 10  9
##   B1 10 10 10 10
##   B2  9 10 10  9

Diseño usando AOV con diferencias en la salida de datos, ya que si se encuentra los cuadros medios.

mod1 = aov(porc_germ ~ bloq * acido,
           datos_des)
summary(mod1)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## bloq          2   7478    3739  97.858 <2e-16 ***
## acido         3    238      79   2.073  0.108    
## bloq:acido    6    276      46   1.203  0.311    
## Residuals   103   3936      38                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Diseño usando lm con diferenias en la salida de datos, ya que no se encuentran los cuadrados medios.

mod2 = lm(porc_germ ~ bloq * acido,
          datos_des)
mod2_res = Anova(mod2, type='II')
mod2_res

No se presentan diferencia notorias, se debe aclarar que para este tipo de modelos con varios factores, no es viable un análisis de varianzas con AOV, se debe emplear un método expecifico debido a la falta de datos. En este caso, el modelo es lineal.

Ajustando debalanceado con diferente orden.

Se modificó el orden de las variables para evaluar si habían diferencias, se sigue aplicando el tipo II.

1.

mod3 = lm(porc_germ ~ bloq + acido+ bloq:acido, datos_des)
Anova(mod3, type='II')

2.

mod3 = lm(porc_germ ~ acido + bloq + bloq:acido, datos_des)
Anova(mod3, type='II')

3.

mod3 = lm(porc_germ ~ bloq:acido + acido + bloq, datos_des)
Anova(mod3, type='II')

4.

mod3 = lm(porc_germ ~ bloq:acido + bloq + acido, datos_des)
Anova(mod3, type='II')

Tipo II: Para organizar los datos cuando el diseño es desbalanceado, referenciar el articulo de porque se usa este tipo de análisis.

Conclusión.

La organización de los datos no es relevante, siempre y cuando se realice la correcta selección del tipo de análisis.
Se tiene un total de 3 métodos de análisis en diseños desbalanceados, de los cuales, unicamente el tercero se emplea de forma generalizada como un ANOVA, desbalanceado mediante sumas de cuadrados.
El tipo II ofrece:

El método apropiado para la construcción de modelos ANOVA.
El método más potente cuando no hay interacción.
La invariante al orden en que se introducen los efectos en el modelo ANOVA, también se menciona que, si no hay un efecto interactivo significativo, entonces el tipo II es más potente en este caso, la interacción entre bloques y ácido no es significativa.

Ahora con una covariable.

Diseño factorial simple en bloques completos generalizados y al azar, desbalanceado (FSBCGA-D), diámetro medio de la semilla como covariable media geometrica.

set.seed(123)

porc_germ = c(
  rnorm(40, 60, 6),
  rnorm(40, 70, 7),
  rnorm(40, 80, 8)
)
diam_med = sort(rnorm(120, 12, 1.3))

bloq = gl(3, 40, 120, c('B0','B1','B2'))
acido = gl(4, 10, 120, c('C0','C1','C2','C3'))

datos = data.frame(acido, bloq,
                   porc_germ, diam_med)
datos_des = datos
datos_des[sample(120, 5), 'porc_germ'] = NA

table(datos_des$bloq, datos_des$acido)

##     
##      C0 C1 C2 C3
##   B0 10 10 10 10
##   B1 10 10 10 10
##   B2 10 10 10 10

Análisis de covarianza.

mod1 = lm(porc_germ ~ diam_med + bloq+ acido+ bloq:acido, datos_des)
Anova(mod1, type='II')

Para este caso, la interacción entre bloque y ácido no es significativa para el experimento.

Para tener la media del experimento cuando hay datos faltantes, en este caso, se van a ignorar los datos faltantes cuando se tiene uno.

tapply(datos_des$porc_germ,
       datos_des$acido,
       mean)

##       C0       C1       C2       C3 
## 70.96384       NA       NA       NA

Corrección usando la media, imputando los datos.

tapply(datos_des$porc_germ,
       datos_des$acido,
       mean, na.rm=TRUE)

##       C0       C1       C2       C3 
## 70.96384 72.04659 68.44023 69.07068

Refencias.

-Langsrud, Øyvind. 2003. ANOVA for unbalanced data: Use type II instead of type III sums of squares. Statistics and Computing. volume 13. pages 163-167. doi = 10.1023/A:1023260610025

Diseño desbalanceado

Jose Gerardo Bermúdez Díaz

26/05/2023

Primero, generamos los datos.

Hipótesis del modelo: Todas las medidas de los tratamientos son iguale.

Analisis de varianza balanceada.

Conclusión.

Análisis de varianza desbalanceada (con los datos desbalanceados).

Conclusión.

Aplicación de bloques completos y generalizados.

Ajustando debalanceado con diferente orden.

1.

2.

3.

4.

Conclusión.

Ahora con una covariable.

Análisis de covarianza.

Para tener la media del experimento cuando hay datos faltantes, en este caso, se van a ignorar los datos faltantes cuando se tiene uno.

Refencias.