Gráfico Q-Q plot
Un Q-Q plot es un gráfico que compara cuantiles teóricos de una distribución (normal en este caso) con los cuantiles observados de los datos. Si los puntos en el gráfico se ajustan aproximadamente a una línea diagonal, sugiere que los datos siguen una distribución normal.
Si los puntos del Q-Q plot siguen una línea recta, es indicativo de que los datos pueden considerarse aproximadamente normales.
El Q-Q plot es útil para evaluar visualmente si los datos siguen una distribución normal. Es especialmente útil para identificar desviaciones en las colas de la distribución.
Cómo interpretarlo: Si los puntos del Q-Q plot siguen aproximadamente una línea diagonal, indica que los datos pueden considerarse normalmente distribuidos.
El comando es \[qqnorm()\]
Suponer que se tiene un conjunto de datos de las alturas (en centímetros) de una muestra de personas. Quieres verificar si estas alturas siguen una distribución normal.
# Ejemplo de Q-Q Plot en R
# Generar datos de ejemplo (altura de personas)
set.seed(123)
altura_personas <- rnorm(100, mean = 170, sd = 10)
# Q-Q Plot
qqnorm(altura_personas)
qqline(altura_personas, col = 2)
la interpretación del valor p es clave. Si el valor p es mayor que el nivel de significancia elegido (como 0.05), no hay suficiente evidencia para rechazar la hipótesis nula de normalidad. Si el valor p es menor, podrías concluir que los datos no siguen una distribución normal.
Prueba de Shapiro-Wilk
La prueba de Shapiro-Wilk es una prueba estadística que evalúa la hipótesis nula de que una muestra proviene de una población con una distribución normal.
Interpretación: Un valor p alto (p > nivel de significancia, comúnmente 0.05) sugiere que no hay evidencia suficiente para rechazar la hipótesis nula de normalidad.
Es adecuada para tamaños de muestra moderados a pequeños (generalmente hasta alrededor de 2,000 observaciones)
Se calcula con el comando \[shapiro.test().\]
# Generar un conjunto de datos de ejemplo no normal
set.seed(123)
datos <- rpois(100, lambda = 5)
# Histograma
hist(datos, main = "Histograma de Datos", col = "lightblue", border = "black")
# Gráfico de probabilidad normal (Q-Q plot)
qqnorm(datos)
qqline(datos, col = 2)
# Prueba de Shapiro-Wilk
shapiro.test(datos)
##
## Shapiro-Wilk normality test
##
## data: datos
## W = 0.97077, p-value = 0.02531
El resultado de la prueba de Shapiro-Wilk incluirá un valor p (p-value). Si el valor p es mayor que el nivel de significancia (comúnmente establecido en 0.05), los datos provienen de una distribución normal. Si el valor p es menor que 0.05, se puede considerar que los datos no siguen una distribución normal.
Suponer que tienes un conjunto de datos que representa el tiempo que los estudiantes universitarios tardan en completar un examen. Quieres comprobar si este tiempo sigue una distribución normal.
# Generar datos de ejemplo (tiempo de examen en minutos)
set.seed(456)
tiempo_examen <- rexp(80, rate = 0.1) # Distribución exponencial
# Prueba de Shapiro-Wilk
shapiro.test(tiempo_examen)
##
## Shapiro-Wilk normality test
##
## data: tiempo_examen
## W = 0.79214, p-value = 2.875e-09
Prueba Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov compara la distribución empírica acumulativa de los datos con la distribución acumulativa esperada para una distribución normal. Interpretación: Un valor p alto indica que no hay suficiente evidencia para rechazar la hipótesis nula de normalidad.
Es útil para tamaños de muestra grandes. Es menos sensible a colas pesadas y es no paramétrica, lo que significa que no asume una media y una desviación estándar específicas.
# Ejemplo de prueba de Kolmogorov-Smirnov en R
ks.test(datos, "pnorm", mean = mean(datos), sd = sd(datos))
## Warning in ks.test(datos, "pnorm", mean = mean(datos), sd = sd(datos)): ties
## should not be present for the Kolmogorov-Smirnov test
##
## One-sample Kolmogorov-Smirnov test
##
## data: datos
## D = 0.1316, p-value = 0.06264
## alternative hypothesis: two-sided
Supongamos que tienes un conjunto de datos que representa las calificaciones de los estudiantes en un examen. Quieres evaluar si estas calificaciones siguen una distribución normal.
#Paramétricas Los datos se distribuyen normalmente
#No Paramétricas Los datos no se distribuyen normalmente
Paramétricos
Los siguientes datos contemplan la prueba t para dos muestras:
# Supongamos que tienes dos vectores de calificaciones finales para los dos métodos de enseñanza
# Datos
calificaciones_metodo_A <- c(85, 90, 88, 92, 87, 89, 93, 91, 86, 88)
calificaciones_metodo_B <- c(78, 82, 80, 85, 79, 83, 81, 87, 80, 84)
# Prueba de Shapiro-Wilk para el Método A
resultado_A <- shapiro.test(calificaciones_metodo_A)
print(resultado_A)
##
## Shapiro-Wilk normality test
##
## data: calificaciones_metodo_A
## W = 0.97523, p-value = 0.9347
# Prueba de Shapiro-Wilk para el Método B
resultado_B <- shapiro.test(calificaciones_metodo_B)
print(resultado_B)
##
## Shapiro-Wilk normality test
##
## data: calificaciones_metodo_B
## W = 0.96862, p-value = 0.8777
Como el p-valor es mayor que 0.05 los datos conservan una distribución normal, por lo tanto se implementa una prueba de hipótesis parametrica:
# Planteamiento de Hipótesis
# H0: No hay diferencia en el rendimiento académico medio entre los dos métodos de enseñanza
# Ha: Hay una diferencia significativa en el rendimiento académico medio entre los dos métodos de enseñanza
# Prueba t de dos muestras
resultado_prueba <- t.test(calificaciones_metodo_A, calificaciones_metodo_B)
# Imprimir los resultados
print(resultado_prueba)
##
## Welch Two Sample t-test
##
## data: calificaciones_metodo_A and calificaciones_metodo_B
## t = 5.741, df = 17.856, p-value = 1.984e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 4.43689 9.56311
## sample estimates:
## mean of x mean of y
## 88.9 81.9
#la prueba t de dos muestras sugiere que hay una diferencia significativa en las calificaciones finales entre los dos métodos de enseñanza, con un intervalo de confianza del 95% para la diferencia de medias que no incluye cero. El valor p muy pequeño (1.984e-05) indica una fuerte evidencia en contra de la hipótesis nula de que las medias son iguales.
Ejemplo2:
Problema: Se desea investigar si hay diferencias significativas en los tiempos de reacción entre dos grupos de personas que participaron en dos métodos diferentes de entrenamiento cognitivo. Nuestra hipótesis nula (\(H_0\)) es que no hay diferencia en los tiempos de reacción promedio entre los dos métodos, mientras que la hipótesis alternativa (\(H_a\)) es que hay una diferencia significativa.
Planteamiento de Hipótesis:
\(H_0\): La media del tiempo de reacción para el Método 1 (\(μ_1\)) es igual a la media del tiempo de reacción para el Método 2 (\(μ_2\)).
\(H_a\): La media del tiempo de reacción para el Método 1 (\(μ_1\)) es diferente de la media del tiempo de reacción para el Método 2 (\(μ_2\)).
Recopilación de Datos:
Se registraron los tiempos de reacción de 30 participantes que siguieron el Método 1 y 30 participantes que siguieron el Método 2.
Verificación de Normalidad:
Se utiliza un gráfico de probabilidad normal (Q-Q plot) y la prueba de normalidad de Shapiro-Wilk para evaluar la normalidad de los tiempos de reacción en cada grupo.
Prueba Paramétrica:
Realizaremos una prueba t de dos muestras para comparar las medias de los tiempos de reacción entre los dos grupos.
# Generar datos ficticios
set.seed(123)
tiempos_metodo_1 <- rnorm(30, mean = 150, sd = 20)
tiempos_metodo_2 <- rnorm(30, mean = 160, sd = 20)
# Verificación de normalidad
par(mfrow = c(1, 2))
qqnorm(tiempos_metodo_1); qqline(tiempos_metodo_1)
qqnorm(tiempos_metodo_2); qqline(tiempos_metodo_2)
shapiro.test(tiempos_metodo_1)
##
## Shapiro-Wilk normality test
##
## data: tiempos_metodo_1
## W = 0.97894, p-value = 0.7966
shapiro.test(tiempos_metodo_2)
##
## Shapiro-Wilk normality test
##
## data: tiempos_metodo_2
## W = 0.98662, p-value = 0.9614
# Prueba t de dos muestras
t.test(tiempos_metodo_1, tiempos_metodo_2)
##
## Welch Two Sample t-test
##
## data: tiempos_metodo_1 and tiempos_metodo_2
## t = -3.0841, df = 56.559, p-value = 0.003156
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -23.930852 -5.086831
## sample estimates:
## mean of x mean of y
## 149.0579 163.5668
Si los Q-Q plots muestran una línea cercana a la diagonal y las pruebas de Shapiro-Wilk no rechazan la normalidad (p > 0.05), podemos asumir normalidad.
La prueba t de dos muestras evaluará si hay una diferencia significativa en las medias de los tiempos de reacción entre los dos métodos. Si el valor p es menor que el nivel de significancia elegido (por ejemplo, 0.05), rechazamos la hipótesis nula y concluimos que hay una diferencia significativa en los tiempos de reacción entre los dos métodos.