ANOVA

ANOVA (Analysis of Variance, en español Análisis de Varianza) es un método estadístico que se utiliza para comparar las medias de tres o más grupos para determinar si existen diferencias significativas entre ellas. La idea principal es evaluar si la variabilidad observada en los datos se debe a las diferencias entre los grupos o es simplemente el resultado del azar.

En términos técnicos, ANOVA analiza la varianza dentro de los grupos y la varianza entre los grupos para determinar si hay alguna diferencia significativa. Se basa en la hipótesis nula de que todas las medias son iguales, y utiliza la estadística F para determinar si rechazar o no esta hipótesis.

El ANOVA descompone la variabilidad total de los datos en dos componentes:

anovaecua

La prueba produce un estadístico F, que muestra la relación entre la variabilidad entre grupos y la variabilidad dentro de los grupos. Si el estadístico F es suficientemente grande, indica que al menos una de las medias de grupo es significativamente diferente de las demás.

¿Cuándo usar ANOVA?

ANOVA es apropiado en los siguientes casos:

  1. Comparar medias de tres o más grupos: Si tienes más de dos grupos y deseas saber si sus medias son significativamente diferentes entre sí.
  2. Variable dependiente continua: La variable dependiente (lo que estás midiendo) debe ser continua (por ejemplo, ingresos, altura, peso).
  3. Variable independiente categórica: La variable que separa los grupos debe ser categórica (por ejemplo, género, nivel educativo, tipo de tratamiento).
  4. Normalidad: Las muestras en cada grupo deben seguir una distribución normal.
  5. Varianza homogénea: Se asume que la varianza dentro de cada grupo es aproximadamente la misma (homocedasticidad).

Tipos de ANOVA

1. ANOVA unidireccional

La prueba ANOVA unidireccional se utiliza cuando hay una variable independiente con dos o más grupos. El objetivo es determinar si existe una diferencia significativa entre las medias de los distintos grupos.

El ANOVA unidireccional es eficaz cuando se analiza el impacto de un único factor en varios grupos, lo que simplifica su interpretación. Sin embargo, no tiene en cuenta la posibilidad de interacción entre múltiples variables independientes, en cuyo caso se hace necesario un ANOVA de dos vías.

2. ANOVA de dos vías

El ANOVA de dos vías se utiliza cuando hay dos variables independientes, cada una con dos o más grupos. El objetivo es analizar cómo influyen ambas variables independientes en la variable dependiente.

Ejemplo

Un investigador desea determinar la eficacia de tres métodos de enseñanza diferentes (conferencia, taller y aprendizaje en línea) sobre las puntuaciones de los alumnos en los exámenes. El método de enseñanza es la variable independiente con tres grupos, y la nota del examen es la variable dependiente.

comparacion

Proporcionan los siguientes datos que muestran las puntuaciones de los exámenes (variable dependiente) en función del método de enseñanza (variable independiente).

datos

Definir las hipótesis

Enuncia las hipótesis nula y alternativa:

  • Hipótesis nula (H₀): Las medias de las puntuaciones de los exámenes de los alumnos de los tres métodos de enseñanza son iguales.
  • Hipótesis alternativa (H₁): Al menos un método de enseñanza tiene una puntuación media diferente en el examen.

# Datos del ejemplo basado en la imagen
# Puntuaciones de los estudiantes por método de enseñanza
lecture <- c(80, 85, 78, 83)
workshop <- c(55, 34, 43, 54)
online_learning <- c(70, 65, 74, 77)

# Crear un data frame para almacenar los datos
datos <- data.frame(
  puntuacion = c(lecture, workshop, online_learning),
  metodo = factor(rep(c("Lecture", "Workshop", "Online learning"), each = 4))
)

# Ver los datos
print(datos)
##    puntuacion          metodo
## 1          80         Lecture
## 2          85         Lecture
## 3          78         Lecture
## 4          83         Lecture
## 5          55        Workshop
## 6          34        Workshop
## 7          43        Workshop
## 8          54        Workshop
## 9          70 Online learning
## 10         65 Online learning
## 11         74 Online learning
## 12         77 Online learning
# Realizar análisis de varianza ANOVA
resultado_anova <- aov(puntuacion ~ metodo, data = datos)

# Resumen del resultado
summary(resultado_anova)
##             Df Sum Sq Mean Sq F value   Pr(>F)    
## metodo       2   2600  1300.0   28.75 0.000123 ***
## Residuals    9    407    45.2                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación

  1. Método de enseñanza:
  • Grados de libertad (Df): 2, ya que estamos comparando tres grupos de enseñanza (Lecture, Workshop, Online learning) y los grados de libertad son (Número de grupos - 1).
  • Suma de cuadrados (Sum Sq): 2600, mide la variabilidad entre los métodos de enseñanza.
  • Media de cuadrados (Mean Sq): 1300, calculada dividiendo la suma de cuadrados entre sus grados de libertad.
  • Valor F (F value): 28.75, es una medida de cuán significativa es la variación entre los métodos de enseñanza comparada con la variabilidad dentro de los grupos (residuos).
  • Valor p (Pr(>F)): 0.000123, es muy pequeño, lo que indica una diferencia estadísticamente significativa entre los métodos de enseñanza. Como este valor es menor a 0.05 (el nivel de significancia común), rechazamos la hipótesis nula.
  1. Residuos (Residuals):
  • Grados de libertad (Df): 9, lo que representa la variabilidad dentro de los grupos (número total de observaciones - número de grupos = 12 - 3).
  • Suma de cuadrados (Sum Sq): 407, mide la variabilidad dentro de cada grupo (cómo varían las puntuaciones dentro de cada método de enseñanza).
  • Media de cuadrados (Mean Sq): 45.2.

# Gráfico de caja para visualizar la distribución de las puntuaciones
boxplot(puntuacion ~ metodo, data = datos, 
        main = "Puntuaciones por Método de Enseñanza",
        xlab = "Método de Enseñanza", 
        ylab = "Puntuación", 
        col = c("lightblue", "lightgreen", "lightpink"))

Conclusión

Dado que el valor p es muy pequeño (0.000123), rechazaríamos la hipótesis nula para concluir que el método de enseñanza afecta significativamente a las calificaciones de los exámenes según el método de enseñanza. Esto sugiere que al menos uno de los métodos es diferente en términos de efectividad respecto a los otros.