PRUEBA DE LA SUMA DE RANGOS DE WILCOXON (MANN WHITNEY U)

La prueba de la suma de rangos de Wilcoxon, también conocida como la prueba de Mann-Whitney U, es utiliza para evaluar las diferencias significativas entre dos grupos independientes en una variable ordinal o continua,de igual forma es una prueba no paramétrica que permite comparar las medianas de una variable cuantitativa para las dos categorías de una variable cualitativa dicotómica.

De acuerdo con lo anterior, supongamos que tenemos dos grupos c y d, de estudiantes de grado once y los vectores creados aleatoriamente Notas_c y Notas_d representan las 150 notas para cada grupo de grado once,

#VARIABLE CUANTITATIVA: NOTAS
#VARIABLE CUALITATIVA DICOTÓMICA: GRUPO C y GRUPO D 

#NOTAS DEL GRUPO C
set.seed(123)
Notas_c=sample(c(1.1:4.9),size=150,replace=TRUE)

#NOTAS DEL GRUPO D
set.seed(1)
Notas_d=sample(c(1.2:4.9),size=150,replace=TRUE)

#BASE DE DATOS CON LAS DOS VARIABLES LOS GRUPOS C/D Y LAS NOTAS

datos <- data.frame(
  GRUPOS = rep(c("Grupo C", "Grupo D")), #PRIMER VARIABLE (V.CUALITATIVA) 
  CALIFICACIONES= c(Notas_c, Notas_d)  #SEGUNDA VARIABLE (v.CUANTITIVA)
)

#IMPRIMIR LOS PRIMEROS 6 DATOS 
print(head(datos))
##    GRUPOS CALIFICACIONES
## 1 Grupo C            3.1
## 2 Grupo D            3.1
## 3 Grupo C            3.1
## 4 Grupo D            2.1
## 5 Grupo C            3.1
## 6 Grupo D            2.1

NORMALIDAD

Sin embargo, antes de aplicar la prueba de Wilcoxon, se debe determinar el comportamiento de los datos, ya que la prueba solo se puede aplicar cuando los datos no se comportan de manera normal o no son parametricos.

  1. Grafico Q-Q PLOT

Revisamos gráficamente el comportamiento de los datos:

qqnorm(Notas_c)
qqline(Notas_c, col = 2)

qqnorm(Notas_d)
qqline(Notas_d, col = 2)

Análisis: De acuerdo con los gráficos Q-Q plot de las notas del grupo c y d dados por R, se puede visualizar que el comportamiento de las notas no es normal, ya que a medida que los valores de los cuartiles teoricos aumenta, el valor de los cuartiles experimentales se mantiene constante, por lo que tienen un comportamiento escalonado y no son directamente proporcionales, es decir a medida que los valores de los cuartiles teoricos aumentan deberia aumentar el valor de los cuatiles experimentales.

  1. Prueba de shapiro:

Determinamos si los datos son normales, entonces utilizamos la prueba de Shapiro-Wilk que es una prueba estadística, donde evalúa la hipótesis nula de que una muestra proviene de una población con una distribución normal.

Interpretación: Un valor p alto (p > nivel de significancia, comúnmente 0.05) sugiere que no hay evidencia suficiente para rechazar la hipótesis nula de normalidad. Es adecuada para tamaños de muestra moderados a pequeños (generalmente hasta alrededor de 2,000 observaciones)

Se calcula con el comando \[shapiro.test().\]

# Prueba de Shapiro-Wilk
shapiro.test(Notas_c)
## 
##  Shapiro-Wilk normality test
## 
## data:  Notas_c
## W = 0.86917, p-value = 3.354e-10
shapiro.test(Notas_d)
## 
##  Shapiro-Wilk normality test
## 
## data:  Notas_d
## W = 0.86107, p-value = 1.405e-10

Análisis: El valor de p para el grupo c de grado once es de 0.0000000003354, por otro lado el valor p para el grupo d de grado once es de 0.0000000001405, donde se sugiere que hay suficiente evidencia para rechazar la hipotesis nula de normalidad, ya que el valor p es menor al valor de significancia 0.05.

APLICACIÓN DE LA PRUEBA DE LA SUMA DE RANGOS DE WILCOXON (MANN WHITNEY U)

Deseamos evaluar si hay diferencias significativas en las calificaciones entre los dos grupos.

resultado_wilcoxon <- wilcox.test(CALIFICACIONES ~ GRUPOS, data = datos)
print(resultado_wilcoxon)
## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  CALIFICACIONES by GRUPOS
## W = 10911, p-value = 0.6496
## alternative hypothesis: true location shift is not equal to 0

ANÁLISIS DE RESULTADOS

Análisis: Aplicando prueba de hipotesis para determinar si existen diferencias significativas entre los dos grupos c y d, se determina:

  1. Hipótesis nula: No hay suficiente evidencia entre las medianas de las notas para afirmar diferencias significativas de los dos grupos, cuando el valor de P ≥ Nivel de significancia 0.05
  2. Hipótesis alterna: hay diferencias significativas entre las medianas de las calificaciones de los dos grupos, cuando el valor de P < Nivel de significancia 0.05
if (resultado_wilcoxon$p.value < 0.05) {
  cat("Por lo tanto hay diferencias significativas entre las medianas de las calificaciones de los dos grupos.")
} else {
  cat("Por lo tanto no hay suficiente evidencia entre las medianas de las notas para afirmar diferencias significativas de los dos grupos")
}
## Por lo tanto no hay suficiente evidencia entre las medianas de las notas para afirmar diferencias significativas de los dos grupos

De acuerdo a lo anterior, se acepta la hipótesis nula y se rechaza la hipótesis alterna, ya que el valor de p es 0.64, lo cual es mayor al valor de significancia de 0.05, así mismo se determina el valor de las diferencias de medianas con la prueba Wilcoxon que es de 10911.