Exposición Test de Friedman

Diseño en bloques completamente aleatorizado

El diseño de bloques completamente (DBCA) tiene como objetivo principal determinar si existen diferencias entre tratamientos. Cada tratamiento se aplica a diferentes unidades experimentales (UE) dentro de cada bloque.

En muchos trabajos de tipo experimental, el DBCA es más ventajoso que el DCA, ya que el objetivo de este DBCA es aislar y eliminar del término de error la variación atribuible a los bloques, con el fin de asegurar que las mediciones hechas sobre las UE que reciben un determinado tratamiento estén libres de los efectos del bloque.

Modelo Lineal DBCA

\[ y_{ij} = \mu + \tau_i + \beta_j + e_{ij} \]

donde \(i = 1, \dots, t\) es el número de tratamientos, \(j = 1, \dots, b\) es el número de bloques.

La contribución de los bloques puede ser considerada como fija o aleatoria. El error se asume iid \(N(0, \sigma^2)\).

Ejemplo: 7 expertos califican el sabor de un vino (1: muy malo. 11: muy bueno) a tres horas del día. Los expertos no saben que es el mismo vino.

Expertos	Mañana	Tarde	Noche
1	9	5	2
2	6	3	1
3	5	5	5
4	11	11	1
5	8	8	3
6	10	10	1
7	7	7	4

\[ y_{ij} = \mu + \tau_i + \beta_j + e_{ij} \]

donde \(i = 1, \dots, 3\) , \(j = 1, \dots, 7\).

\(y_{ijk}\): Calificación otorgada al vino, evaluado por el \(j\)-ésimo experto (o calificador), que recibió el \(i\)-ésimo tratamiento (momento del día en que se prueba el vino).

En este ejemplo, los calificadores actuarán como bloques. A menudo, se trata de expertos con autoridad para evaluar, y su juicio puede introducir variabilidad en los resultados del experimento. Por ejemplo, en este caso, cada persona que califica el vino puede percibirlo de manera diferente, generando una fuente de variación que debe controlarse. Por esta razón, se considera apropiado tratarlos como bloques. Por otro lado, los tratamientos estarán representados por el momento del día en que se prueba el vino (mañana, tarde y noche).

datos <- data.frame(
  Participante = 1:7,
  Mañana  = c(9, 6, 5, 11, 8, 10, 7),
  Tarde   = c(5, 3, 5, 11, 8, 10, 7),
  Noche   = c(2, 1, 5, 1, 3, 1, 4)
)

datos_largo <- reshape(
  datos,
  varying = c("Mañana", "Tarde", "Noche"),
  v.names = "Puntaje",
  timevar = "Horario",
  times = c("Mañana", "Tarde", "Noche"),
  idvar = "Participante",
  direction = "long"
)

datos_largo <- datos_largo[, c("Participante", "Horario", "Puntaje")]

modelo <- aov(Puntaje ~ Horario + Participante, data = datos_largo)
summary(modelo)

##              Df Sum Sq Mean Sq F value   Pr(>F)    
## Horario       2 123.52   61.76  12.879 0.000394 ***
## Participante  1  12.19   12.19   2.542 0.129272    
## Residuals    17  81.52    4.80                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Validación de supuestos

Varianza constante

Hipótesis de la prueba de Levene:

\[ \begin{aligned} H_0\!:\! & \quad \sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k \quad \text{(Las varianzas de los grupos son iguales)} \\\\ H_1\!:\! & \quad \exists\, i, j \text{ tal que } \sigma^2_i \neq \sigma^2_j \quad \text{(Al menos una varianza es diferente)} \end{aligned} \]

## Levene's Test for Homogeneity of Variance (center = mean)
##       Df F value Pr(>F)
## group  2  1.1812 0.3296
##       18

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  1.2065 0.3223
##       18

Normalidad

Hipótesis de las pruebas de normalidad (Shapiro-Wilk, Anderson-Darling, Lilliefors, etc.):

\[ \begin{aligned} H_0\!:\! & \quad \text{Los datos provienen de una distribución normal} \\\\ H_1\!:\! & \quad \text{Los datos no provienen de una distribución normal} \end{aligned} \]

Resultados de pruebas de normalidad sobre los residuos del modelo
Prueba	Estadístico	Valor_p
Shapiro-Wilk	0.9652	0.6266
Jarque-Bera	1.0736	0.5846
Anderson-Darling	0.2748	0.6251
Cramér-von Mises	0.0425	0.6175
Lilliefors (Kolmogorov-Smirnov)	0.1056	0.7834

## Warning in replications(paste("~", xx), data = mf): non-factors ignored:
## Participante

Resultados del test de Tukey para comparaciones múltiples entre horarios
	Comparación	Diferencia	Límite inferior	Límite superior	Valor-p	¿Diferencia significativa?
Noche-Mañana	Noche-Mañana	-5.5714	-8.5743	-2.5686	0.0005	Sí
Tarde-Mañana	Tarde-Mañana	-1.0000	-4.0028	2.0028	0.6753	No
Tarde-Noche	Tarde-Noche	4.5714	1.5686	7.5743	0.0031	Sí

Eficiencia relativa del DCA respecto al DBCA

Modelo Lineal DCA

\[ y_{ij} = \mu + \tau_i + e_{ij} \] donde \(i = 1, \dots, t\) es el número de tratamientos, \(j = 1, \dots, k\) es el número de replicaciones.

El error se asume iid \(N(0, \sigma^2)\).

La eficiencia relativa (\(ER\)) del DCA con respecto al DBCA es:

\[ ER = \frac{CME_{DCA}}{CME_{DBCA}} \]

La varianza esperada del error en un DCA, si se ignoraran los bloques, se estima como:

\[ CME_{DCA} = \frac{(b - 1)CM_{Bloq} + (t - 1)(b - 1)CME_{DBCA}}{t(b - 1)} \]

\[ ER = \frac{CME_{DCA}}{CME_{DBCA}} = \frac{ \frac{1\times12.19 +17 \times4.80}{18}}{4.80} = 1.0854 \]

Ya que la eficiencia relativa es mayor a 1, el uso de bloques (es decir, controlar la variabilidad entre participantes) mejoró la precisión del experimento al reducir la variabilidad no explicada por los tratamientos.

Enfoque no paramétrico

Ejemplo: 10 estudiantes son evaluados bajo tres métodos distintos. Los puntajes obtenidos por cada estudiante se muestran a continuación:

Estudiante	Método A	Método B	Método C
1	3	3	3
2	2	2	3
3	4	1	5
4	0	1	4
5	0	1	4
6	1	3	5
7	1	5	5
8	0	2	5
9	9	2	0
10	0	13	2

set.seed(123)
datos2 <- data.frame(
  Estudiante = 1:10,
  Metodo_A = round(rexp(10, rate = 0.3)),
  Metodo_B = round(rexp(10, rate = 0.3)),
  Metodo_C = round(rexp(10, rate = 0.3))
)

datos_largo_2 <- reshape(
  datos2,
  varying = list(c("Metodo_A", "Metodo_B", "Metodo_C")),
  v.names = "Puntaje",
  timevar = "Metodo",
  times = c("A", "B", "C"),
  direction = "long"
)

datos_largo_2 <- datos_largo_2[, c("Estudiante", "Metodo", "Puntaje")]

modelo_2 <- aov(Puntaje ~ Metodo + Estudiante, data = datos_largo_2)
summary(modelo_2)

##             Df Sum Sq Mean Sq F value Pr(>F)
## Metodo       2  14.47   7.233   0.911  0.415
## Estudiante   1   8.00   8.001   1.007  0.325
## Residuals   26 206.50   7.942

Validación de supuestos

Varianza constante

######## Hipótesis de la prueba de Levene:

\[ \begin{aligned} H_0\!:\! & \quad \sigma^2_1 = \sigma^2_2 = \dots = \sigma^2_k \quad \text{(Las varianzas de los grupos son iguales)} \\\\ H_1\!:\! & \quad \exists\, i, j \text{ tal que } \sigma^2_i \neq \sigma^2_j \quad \text{(Al menos una varianza es diferente)} \end{aligned} \]

## Levene's Test for Homogeneity of Variance (center = mean)
##       Df F value Pr(>F)
## group  2   0.677 0.5165
##       27

## Levene's Test for Homogeneity of Variance (center = median)
##       Df F value Pr(>F)
## group  2  0.2417  0.787
##       27

Normalidad

Hipótesis de las pruebas de normalidad (Shapiro-Wilk, Anderson-Darling, Lilliefors, etc.):

\[ \begin{aligned} H_0\!:\! & \quad \text{Los datos provienen de una distribución normal} \\\\ H_1\!:\! & \quad \text{Los datos no provienen de una distribución normal} \end{aligned} \]

Resultados de pruebas de normalidad sobre los residuos del modelo
Prueba	Estadístico	Valor_p
Shapiro-Wilk	0.8677	0.0015
Jarque-Bera	22.5469	0.0000
Anderson-Darling	1.0855	0.0064
Cramér-von Mises	0.1450	0.0258
Lilliefors (Kolmogorov-Smirnov)	0.1441	0.1152

Prueba

## 
##  Friedman rank sum test
## 
## data:  Puntaje and Metodo and Estudiante
## Friedman chi-squared = 7.1176, df = 2, p-value = 0.02847

Resultados del test de Nemenyi (comparaciones múltiples)
Comparación	Valor.p	Conclusión
A vs B	0.435	No significativa
A vs C	0.037	Diferencia significativa
B vs C	0.435	No significativa

Exposición Test de Friedman

2025-07-10

Diseño en bloques completamente aleatorizado

Validación de supuestos

Varianza constante

Normalidad

Hipótesis de las pruebas de normalidad (Shapiro-Wilk, Anderson-Darling, Lilliefors, etc.):

Eficiencia relativa del DCA respecto al DBCA

Modelo Lineal DCA

Enfoque no paramétrico

Validación de supuestos

Varianza constante

Normalidad

Hipótesis de las pruebas de normalidad (Shapiro-Wilk, Anderson-Darling, Lilliefors, etc.):

Prueba