Ejercicio 1.

set.seed(0074)
# Variable: Compuestos Fenolicos
cf = c(rnorm(40, 22, 1),
       rnorm(40, 13, 1.22),
       rnorm(40, 17, 1.16))

# Factor 1: Tiempo de Coccion
tiempo = gl(3, 40, 120, c(0, 10, 12))

# Factor 2: Variedades
variedad = gl(2, 20, 120, c('vari1', 'vari2'))


# Covariable:  Tamaño inicial de cubos
Cubos = runif(120, 0.86, 1.2)
Cubos = round(sort.int(Cubos, 6), 2)

# Bloque: Laboratorio
labo = gl(2, 10, 120, c('biol','alim'))

df = data.frame(labo, variedad, tiempo, cf, Cubos)
head(df)
##   labo variedad tiempo       cf Cubos
## 1 biol    vari1      0 22.53772  0.86
## 2 biol    vari1      0 21.14407  0.87
## 3 biol    vari1      0 23.12559  0.87
## 4 biol    vari1      0 20.02414  0.88
## 5 biol    vari1      0 22.53223  0.86
## 6 biol    vari1      0 22.89888  0.89
boxplot(df$cf~df$variedad)

Los dos diagramas de caja presentan la misma dispersión y el mismo promedio.

boxplot(df$cf~df$tiempo)

El promedio del compuesto para el tiempo de cero presenta la mayor media, después el compuesto para el tiempo de 12 y, por último, la media más reducida está en el tiempo de 10. En cualquiera de estos tres casos, se obtiene una dispersión similar, aunque parece que para el tiempo de 12 la dispersión es mayor.

library(collapsibleTree)
## Warning: package 'collapsibleTree' was built under R version 4.2.3
collapsibleTreeSummary(df, hierarchy = c('labo', 'tiempo', 'variedad', 'cf'))
tapply(df$cf, df$variedad, mean)
##    vari1    vari2 
## 17.11115 17.38695

Los datos proporcionan un compuesto de 17.11 en la variedad 1 y de 17.38 en la variedad 2. Las medias son muy parecidas, no se prevé una diferencia de medias significativas en el compuesto al considerar la variedad.

tapply(df$cf, df$variedad, var)
##    vari1    vari2 
## 15.62168 14.90340
tapply(df$cf, df$variedad, sd)
##    vari1    vari2 
## 3.952427 3.860493

Se establece que las dispersiones del compuesto son similares analizando la variedad, pues las varianzas (15,62; 14,90) y sus desviaciones típicas (3,95; 3,86) son muy parecidas.

tapply(df$cf, df$tiempo, mean)
##        0       10       12 
## 21.89787 12.82958 17.01969

En relación a las medias del compuesto, la mayor media es para un tiempo de 0 (21,89), seguida del tiempo de 12 (17,019) y por último con un tiempo de 10 (12,829). Existen diferencias entre las medias.

tapply(df$cf, df$tiempo, var)
##         0        10        12 
## 0.9611563 1.0350364 1.9891200

En cuanto a las varianzas, se observa que los tiempos de 0 y 10 muestran varianzas similares, pero no es así para el tiempo de 12, pues su varianza es aproximadamente 2 veces superior al resto.

tapply(df$cf, df$tiempo, sd)
##         0        10        12 
## 0.9803858 1.0173674 1.4103617

En cuanto a las desviaciones típicas,, se observa que los tiempos de 0 y 10 muestran varianzas similares, pero no es así para el tiempo de 12, pues su desviación típica es aproximadamente raíz (2) veces superior al resto.

ANCOVA

Sin interacciones

modelo1 = aov(cf~labo+variedad+tiempo+Cubos, df)
summary(modelo1)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## labo          1    0.9     0.9   0.667  0.416    
## variedad      1    2.3     2.3   1.710  0.194    
## tiempo        2 1647.8   823.9 617.515 <2e-16 ***
## Cubos         1    0.2     0.2   0.113  0.737    
## Residuals   114  152.1     1.3                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Labo: El estadístico F asciende a 0.66 con un p valor 0.41 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable.

Variedad: El estadístico F asciende a 1.71 con un p valor 0.194 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (variedad).

Tiempo: El estadístico F asciende a 617.515 con un p valor 0 < 0.05. Tenemos evidencia empírica suficiente para rechazar H0 al 5%. Las medias del compuesto son distintas, atendiendo a la variable tiempo.

Cubos: El estadístico F asciende a 0.113 con un p valor 0.73 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (cubos).

Con interacción: Bloqueo por factor de variedad

modelo2 = aov(cf~labo*variedad + tiempo + Cubos, df)
summary(modelo2)
##                Df Sum Sq Mean Sq F value Pr(>F)    
## labo            1    0.9     0.9   0.662  0.418    
## variedad        1    2.3     2.3   1.697  0.195    
## tiempo          2 1647.8   823.9 612.703 <2e-16 ***
## Cubos           1    0.2     0.2   0.112  0.738    
## labo:variedad   1    0.2     0.2   0.112  0.739    
## Residuals     113  152.0     1.3                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Labo: El estadístico F asciende a 0.66 con un p valor 0.41 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable.

Variedad: El estadístico F asciende a 1.69 con un p valor 0.195 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (variedad).

Tiempo: El estadístico F asciende a 612.7 con un p valor 0 < 0.05. Tenemos evidencia empírica suficiente para rechazar H0 al 5%. Las medias del compuesto son distintas, atendiendo a la variable tiempo.

Cubos: El estadístico F asciende a 0.112 con un p valor 0.73 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (cubos).

Interacción labo vs variedad: El estadístico del contraste F asciende a 0.112 con un p valor de 0.739 > 0.05. Tenemos evidencia empírica suficiente para aceptar la hipótesis (H0) de que la interacción no produce efectos diferentes en la media del compuesto (interacción no es significativa).

modelo3 = aov(cf~labo*tiempo + variedad + Cubos, df)
summary(modelo3)
##              Df Sum Sq Mean Sq F value Pr(>F)    
## labo          1    0.9     0.9   0.658  0.419    
## tiempo        2 1647.8   823.9 609.128 <2e-16 ***
## variedad      1    2.3     2.3   1.687  0.197    
## Cubos         1    0.2     0.2   0.111  0.739    
## labo:tiempo   2    0.6     0.3   0.226  0.798    
## Residuals   112  151.5     1.4                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Labo: El estadístico F asciende a 0.65 con un p valor 0.41 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable.

Variedad: El estadístico F asciende a 1.68 con un p valor 0.197 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (variedad).

Tiempo: El estadístico F asciende a 609.12 con un p valor 0 < 0.05. Tenemos evidencia empírica suficiente para rechazar H0 al 5%. Las medias del compuesto son distintas, atendiendo a la variable tiempo.

Cubos: El estadístico F asciende a 0.111 con un p valor 0.73 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (cubos).

Interacción labo vs tiempo: El estadístico del contraste F asciende a 0.226 con un p valor de 0.798 > 0.05. Tenemos evidencia empírica suficiente para aceptar la hipótesis (H0) de que la interacción no produce efectos diferentes en la media del compuesto (interacción no es significativa).

ANOVAS

modelo4 = aov(cf ~labo*variedad+tiempo, df)
summary(modelo4)
##                Df Sum Sq Mean Sq F value Pr(>F)    
## labo            1    0.9     0.9   0.667  0.416    
## variedad        1    2.3     2.3   1.710  0.194    
## tiempo          2 1647.8   823.9 617.432 <2e-16 ***
## labo:variedad   1    0.1     0.1   0.098  0.755    
## Residuals     114  152.1     1.3                   
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Labo: El estadístico F asciende a 0.66 con un p valor 0.41 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable.

Variedad: El estadístico F asciende a 1.71 con un p valor 0.194 > 0.05. Tenemos evidencia empírica suficiente para aceptar H0 al 5%. Las medias del compuesto son similares, atendiendo a esta variable (variedad).

Tiempo: El estadístico F asciende a 617.43 con un p valor 0 < 0.05. Tenemos evidencia empírica suficiente para rechazar H0 al 5%. Las medias del compuesto son distintas, atendiendo a la variable tiempo.

Interacción labo vs variedad: El estadístico del contraste F asciende a 0.098 con un p valor de 0.755 > 0.05. Tenemos evidencia empírica suficiente para aceptar la hipótesis (H0) de que la interacción no produce efectos diferentes en la media del compuesto (interacción no es significativa).

# Residuos del modelo 1

res1 = modelo1$residuals
shapiro.test(res1)
## 
##  Shapiro-Wilk normality test
## 
## data:  res1
## W = 0.99135, p-value = 0.6594

Se acepta la hipótesis de normalidad.

tratamiento = interaction(df$tiempo, df$variedad)
bartlett.test(res1, tratamiento)
## 
##  Bartlett test of homogeneity of variances
## 
## data:  res1 and tratamiento
## Bartlett's K-squared = 8.7198, df = 5, p-value = 0.1208

Se acepta la hipótesis de homogeneidad de varianzas.

# ¿Fue eficiente el bloqueo?
H = 0.9/152.1
H
## [1] 0.00591716

Al ser menor al 20%, no fue eficiente bloquear esta variable.

# ¿Fue eficiente el bloqueo?
H2 = 0.9/152.0
H2
## [1] 0.005921053

Al ser menor al 20%, no fue eficiente bloquear esta variable.

Gráficas

library(ggplot2)
## Warning: package 'ggplot2' was built under R version 4.2.3
mdf = aggregate(list(cf = df$cf),
                list(variedad = df$variedad,
                     tiempo = df$tiempo),
                mean)
ggplot(mdf)+
  aes(x = tiempo, y = cf, group = variedad, color = variedad)+
  # geom_boxplot()
  geom_line()

No se muestran diferencias significativas.

ggplot(mdf) + aes(x=variedad, y=cf, group=tiempo, color=tiempo)+geom_line(linetype = 'dashed')

Sí hay diferencias significativas.

library(lattice)
bwplot(df$cf~df$tiempo | df$variedad)

No hay diferencias del cf en base al tiempo con interacción de la variedad.

Info de la sesión

sesion_info <- devtools::session_info()
dplyr::select(
  tibble::as_tibble(sesion_info$packages),
  c(package, loadedversion, source)
)
## # A tibble: 69 × 3
##    package         loadedversion source        
##    <chr>           <chr>         <chr>         
##  1 bslib           0.4.2         CRAN (R 4.2.2)
##  2 cachem          1.0.6         CRAN (R 4.2.2)
##  3 callr           3.7.3         CRAN (R 4.2.3)
##  4 cli             3.6.0         CRAN (R 4.2.2)
##  5 collapsibleTree 0.1.7         CRAN (R 4.2.3)
##  6 colorspace      2.1-0         CRAN (R 4.2.3)
##  7 crayon          1.5.2         CRAN (R 4.2.3)
##  8 data.tree       1.0.0         CRAN (R 4.2.3)
##  9 devtools        2.4.5         CRAN (R 4.2.3)
## 10 digest          0.6.31        CRAN (R 4.2.2)
## # ℹ 59 more rows