Analisis de varianza desbalanceado

FSCA(DESBALANCEADO)

set.seed(123)
porc_germ = c(
  rnorm(40, 60, 6),
  rnorm(40, 70 ,7),
  rnorm(40, 80, 8)
) #Variable respuesta (porcentaje de germinación) 
acido = gl(3, 40, 120, c('c0','c1', 'c2' )) #Factor

datos = data.frame(acido, porc_germ)
head(datos)

##   acido porc_germ
## 1    c0  56.63715
## 2    c0  58.61894
## 3    c0  69.35225
## 4    c0  60.42305
## 5    c0  60.77573
## 6    c0  70.29039

table(datos$acido)

## 
## c0 c1 c2 
## 40 40 40

datos_des = datos[-c(50, 111, 120),]
table(datos_des$acido)

## 
## c0 c1 c2 
## 40 39 38

##Analisis de varianza balanceado

mod1 = aov(porc_germ ~ acido, datos)
summary(mod1)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## acido         2   7835    3918   98.15 <2e-16 ***
## Residuals   117   4670      40                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##P-Valor=2e-16, por lo que se rechaza la hipótesis nula y se concluye que al menos una germinación no fue igual en todas las concentraciones

boxplot(datos$porc_germ ~ datos$acido)

El gráfico nos muestra que la germinación fue mejor bajo cada dosis del ácido. La germinación fue mejor cuando la concentración del ácido fue mayor. Sin embargo el tratamiento control, es decir el tratamiento donde no se aplicó ácido tuvo la peor germinación. Esta prueba es balanceada porque se tienen todos los datos. A continuación una prueba desbalanceada, es decir con datos faltantes

##ANALISIS DE VARIANZA BALANCEADO CON LOS DATOS DESBALANCEADOS

mod2 = aov(porc_germ ~ acido, datos_des)
summary(mod2)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## acido         2   7898    3949   98.39 <2e-16 ***
## Residuals   114   4576      40                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

La prueba aov no sirve para modelos desbalanceados con más de 2 factores, siempre que en la prueba falten datos se debe de hacer una prueba especial con lm

#ANALISIS CORRECTO PARA DATOS DESBALANCEADOS

mod3 = lm(porc_germ ~ acido, datos_des)
library(car)

## Loading required package: carData

mod3_res = Anova(mod3, type = 'II')
mod3_res

## Anova Table (Type II tests)
## 
## Response: porc_germ
##           Sum Sq  Df F value    Pr(>F)    
## acido     7898.3   2  98.392 < 2.2e-16 ***
## Residuals 4575.6 114                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Cuando la prueba tenga un solo factor se puede utilizar aov o lm

##AHORA CON BLOQUES(3 bloques en todos los tratamientos) #Factorial simple en bloques al azar #desbalanceado con bloques

set.seed(123)

porc_germ = c(
  rnorm(40, 60, 6),
  rnorm(40, 70, 7),
  rnorm(40, 80, 8)
)

bloq = gl(3, 40, 120, c('B0','B1','B2')) #3 niveles de bloque
acido = gl(4, 10, 120, c('C0','C1','C2','C3'))# 4 concentraciones de acido

datos = data.frame(acido, bloq, porc_germ)
datos_des = datos[-c(50, 111, 120), ]#Para el ejercicio se eliminan las filas 50, 111 y 120
datos_des #Datos desbalanceados

##     acido bloq porc_germ
## 1      C0   B0  56.63715
## 2      C0   B0  58.61894
## 3      C0   B0  69.35225
## 4      C0   B0  60.42305
## 5      C0   B0  60.77573
## 6      C0   B0  70.29039
## 7      C0   B0  62.76550
## 8      C0   B0  52.40963
## 9      C0   B0  55.87888
## 10     C0   B0  57.32603
## 11     C1   B0  67.34449
## 12     C1   B0  62.15888
## 13     C1   B0  62.40463
## 14     C1   B0  60.66410
## 15     C1   B0  56.66495
## 16     C1   B0  70.72148
## 17     C1   B0  62.98710
## 18     C1   B0  48.20030
## 19     C1   B0  64.20814
## 20     C1   B0  57.16325
## 21     C2   B0  53.59306
## 22     C2   B0  58.69215
## 23     C2   B0  53.84397
## 24     C2   B0  55.62665
## 25     C2   B0  56.24976
## 26     C2   B0  49.87984
## 27     C2   B0  65.02672
## 28     C2   B0  60.92024
## 29     C2   B0  53.17118
## 30     C2   B0  67.52289
## 31     C3   B0  62.55879
## 32     C3   B0  58.22957
## 33     C3   B0  65.37075
## 34     C3   B0  65.26880
## 35     C3   B0  64.92949
## 36     C3   B0  64.13184
## 37     C3   B0  63.32351
## 38     C3   B0  59.62853
## 39     C3   B0  58.16422
## 40     C3   B0  57.71717
## 41     C0   B1  65.13705
## 42     C0   B1  68.54458
## 43     C0   B1  61.14223
## 44     C0   B1  85.18269
## 45     C0   B1  78.45573
## 46     C0   B1  62.13824
## 47     C0   B1  67.17981
## 48     C0   B1  66.73341
## 49     C0   B1  75.45976
## 51     C1   B1  71.77323
## 52     C1   B1  69.80017
## 53     C1   B1  69.69991
## 54     C1   B1  79.58022
## 55     C1   B1  68.41960
## 56     C1   B1  80.61529
## 57     C1   B1  59.15873
## 58     C1   B1  74.09230
## 59     C1   B1  70.86698
## 60     C1   B1  71.51159
## 61     C2   B1  72.65748
## 62     C2   B1  66.48374
## 63     C2   B1  67.66755
## 64     C2   B1  62.86997
## 65     C2   B1  62.49746
## 66     C2   B1  72.12470
## 67     C2   B1  73.13747
## 68     C2   B1  70.37103
## 69     C2   B1  76.45587
## 70     C2   B1  84.35059
## 71     C3   B1  66.56278
## 72     C3   B1  53.83582
## 73     C3   B1  77.04017
## 74     C3   B1  65.03559
## 75     C3   B1  65.18394
## 76     C3   B1  77.17900
## 77     C3   B1  68.00659
## 78     C3   B1  61.45498
## 79     C3   B1  71.26912
## 80     C3   B1  69.02776
## 81     C0   B2  80.04611
## 82     C0   B2  83.08224
## 83     C0   B2  77.03472
## 84     C0   B2  85.15501
## 85     C0   B2  78.23611
## 86     C0   B2  82.65426
## 87     C0   B2  88.77471
## 88     C0   B2  83.48145
## 89     C0   B2  77.39255
## 90     C0   B2  89.19046
## 91     C1   B2  87.94803
## 92     C1   B2  84.38718
## 93     C1   B2  81.90985
## 94     C1   B2  74.97675
## 95     C1   B2  90.88522
## 96     C1   B2  75.19792
## 97     C1   B2  97.49866
## 98     C1   B2  92.26089
## 99     C1   B2  78.11440
## 100    C1   B2  71.78863
## 101    C2   B2  74.31675
## 102    C2   B2  82.05507
## 103    C2   B2  78.02646
## 104    C2   B2  77.21966
## 105    C2   B2  72.38705
## 106    C2   B2  79.63978
## 107    C2   B2  73.72076
## 108    C2   B2  66.65646
## 109    C2   B2  76.95819
## 110    C2   B2  87.35197
## 112    C3   B2  84.86371
## 113    C3   B2  67.05694
## 114    C3   B2  79.55550
## 115    C3   B2  84.15526
## 116    C3   B2  82.40923
## 117    C3   B2  80.84541
## 118    C3   B2  74.87435
## 119    C3   B2  73.20237

#aov

mod4 = aov(porc_germ ~ bloq * acido, datos_des) #primero se corre con aov(en funcion del bloque)
summary(mod4)

##              Df Sum Sq Mean Sq F value Pr(>F)    
## bloq          2   7898    3949 102.076 <2e-16 ***
## acido         3    248      83   2.133  0.100    
## bloq:acido    6    266      44   1.145  0.342    
## Residuals   105   4062      39                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

#lm

mod5 = lm(porc_germ ~ bloq * acido, 
          datos_des)# aqui se corre con lm (en funcion del bloque) para observar la diferencia con aov
mod5_res = Anova(mod2, type='II')
mod5_res

## Anova Table (Type II tests)
## 
## Response: porc_germ
##           Sum Sq  Df F value    Pr(>F)    
## acido     7898.3   2  98.392 < 2.2e-16 ***
## Residuals 4575.6 114                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Aunque los resultados para la conclusión sean los mismos (sin interacción, sin efecto del ácido, los bloques pueden tener efecto) cuando es desbalanceado y hay más de un factor no se debe usar aov a menos que solo exista un solo factor

##Desvalanceo con diferentes ordenes (ajuste)

mod3 = lm(porc_germ ~ bloq + acido + bloq:acido, datos_des)
Anova(mod3, type='II') #Aqui se hace la prueba en funcion del bloque

## Anova Table (Type II tests)
## 
## Response: porc_germ
##            Sum Sq  Df  F value Pr(>F)    
## bloq       7850.6   2 101.4603 <2e-16 ***
## acido       247.6   3   2.1333 0.1004    
## bloq:acido  265.7   6   1.1447 0.3418    
## Residuals  4062.3 105                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod3 = lm(porc_germ ~ acido + bloq + bloq:acido, datos_des)
Anova(mod3, type='II')#Aqui se hace la prueba en funcion del factor

## Anova Table (Type II tests)
## 
## Response: porc_germ
##            Sum Sq  Df  F value Pr(>F)    
## acido       247.6   3   2.1333 0.1004    
## bloq       7850.6   2 101.4603 <2e-16 ***
## acido:bloq  265.7   6   1.1447 0.3418    
## Residuals  4062.3 105                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod3 = lm(porc_germ ~ bloq:acido + acido + bloq, datos_des)
Anova(mod3, type='II')#Aqui se hace la prube en funcion de la interaccion mas el factor

## Anova Table (Type II tests)
## 
## Response: porc_germ
##            Sum Sq  Df  F value Pr(>F)    
## acido       247.6   3   2.1333 0.1004    
## bloq       7850.6   2 101.4603 <2e-16 ***
## bloq:acido  265.7   6   1.1447 0.3418    
## Residuals  4062.3 105                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

mod3 = lm(porc_germ ~ bloq:acido + bloq + acido, datos_des)#Aqui se hace la prueba en funcion de la interaccion mas el bloque
Anova(mod3, type='II')

## Anova Table (Type II tests)
## 
## Response: porc_germ
##            Sum Sq  Df  F value Pr(>F)    
## bloq       7850.6   2 101.4603 <2e-16 ***
## acido       247.6   3   2.1333 0.1004    
## bloq:acido  265.7   6   1.1447 0.3418    
## Residuals  4062.3 105                    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Cuando hay desbalanceo: type=II para suma de cuadrados. Al cambiar el orden los resultados son idénticos debido a la suma de cuadrados tipo II, si no se pone tipo II los resultados hubiesen sido diferentes, el tipo II ajusta la suma de cuadrados para evitar las diferencias en el orden. Si se usa la función aov sin decir el tipo los resultados pueden ser diferentes (Langsrud, 2003) ##Cuando hay desbalanceo y se tiene duda sobre como ordenar los factores se usa “type=‘II’” para suma de cuadrados

##Ahora con una covariable (mismo diseño) ##Covariable -> Diámetro medio de la semilla ##Diseño factorial simple (solo hay un factor)en bloques completos(todos los bloques tienen todos los tratamientos) generalizados y al azar(hay varias repeticiones por bloque). Desbalanceado (no hay las mismas repeticiones) y con la técnica Análisis de covarianza

set.seed(123)

porc_germ = c(
  rnorm(40, 60, 6),
  rnorm(40, 70, 7),
  rnorm(40, 80, 8)
)
diam_med = sort(rnorm(120, 12, 1.3)) #covarible

bloq = gl(3, 40, 120, c('B0','B1','B2'))
acido = gl(4, 10, 120, c('C0','C1','C2','C3'))

datos = data.frame(acido, bloq,
                   porc_germ, diam_med)
datos_des = datos[-sample(120, 5), ]

table(datos_des$bloq, datos_des$acido)

##     
##      C0 C1 C2 C3
##   B0 10  9  9 10
##   B1 10 10  9  9
##   B2 10  9 10 10

#recomendación: Para en análisis de la tabla anova se usa la función lm, en esta función es recomendable introducir primero la covariable, después los bloques y por último el factor (en ese orden)

mod1 = lm(porc_germ ~ diam_med + bloq + acido + 
            bloq:acido, 
          datos_des)
Anova(mod1, type = 'II')

## Anova Table (Type II tests)
## 
## Response: porc_germ
##            Sum Sq  Df F value    Pr(>F)    
## diam_med      6.0   1  0.1574    0.6924    
## bloq       1069.4   2 14.0706 4.013e-06 ***
## acido       151.8   3  1.3315    0.2683    
## bloq:acido  235.4   6  1.0325    0.4087    
## Residuals  3876.1 102                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Aquí se observa el análisis de varianza. La variable respuesta en función de la covariable, el bloqueo, el factor y la interacción entre el bloqueo y el factor

set.seed(123)

porc_germ = c(
  rnorm(40, 60, 6),
  rnorm(40, 70, 7),
  rnorm(40, 80, 8)
)
diam_med = sort(rnorm(120, 12, 1.3))

bloq = gl(3, 40, 120, c('B0','B1','B2'))
acido = gl(4, 10, 120, c('C0','C1','C2','C3'))

datos = data.frame(acido, bloq,
                   porc_germ, diam_med)
datos_des = datos
datos_des[sample(120, 5), 'porc_germ'] = NA #¿que pasa si en lugar de que no haya datos los datos presentes son NA?

table(datos_des$bloq, datos_des$acido)

##     
##      C0 C1 C2 C3
##   B0 10 10 10 10
##   B1 10 10 10 10
##   B2 10 10 10 10

tapply(datos_des$porc_germ,
       datos_des$acido,
       mean, na.rm=TRUE)

##       C0       C1       C2       C3 
## 70.96384 72.04659 68.44023 69.07068

Aquí se muestra la media de la germinación para cada tratamiento omitiendo los valores que faltan

BIBLIOGRAFIA Langsrud, Ø. (2003). Estadística y Computación, 13(2), 163–167. doi:10.1023/a:1023260610025

Analisis de varianza desbalanceado

Palma Oliva Anderson

2023-05-26