Comparación de principales pruebas de normalidad
Universidad de Antioquia, Facultad Nacional de Salud Pública
2025-02-06
Primera parte:
Revisión ejercicios guía 1.
Revisión lectura dirigida 2: preguntas.
Descanso
Segunda parte:
Conceptos clave artículo: EPV, estadísticos de orden, simulación montecarlo.
Guía 2-Ejercicio de simulación: comparación pruebas de normalidad.
Resumen y cierre.
Ejercicios práctico 1 y 2 (estudiantes).
Ejercicio práctico 3: comprobando el TLC(Realizar en clase)
Shapiro–Francia test compared to other normality test using expected p-value
¿Cuáles son las principales ventajas y desventajas del test de Shapiro-Francia en comparación con otros tests de normalidad evaluados en el estudio? ¿En qué contextos epidemiológicos sería más recomendable su uso?.
Según los resultados de la simulación, ¿cómo afecta el tamaño de muestra al desempeño de las diferentes pruebas de normalidad? ¿Qué implicaciones tiene esto para el análisis de datos en estudios epidemiológicos con muestras pequeñas o grandes?.
Los autores utilizan el valor p esperado (EPV) en lugar de la potencia del test para comparar el desempeño de las pruebas. ¿Por qué crees que tomaron esta decisión? ¿Consideras que esta métrica es la más adecuada para evaluar la efectividad de una prueba de normalidad?.
En un estudio epidemiológico en el que necesitas evaluar la normalidad de una variable continua, ¿qué criterios utilizarías para seleccionar una prueba de normalidad basada en la evidencia presentada en el artículo?.
A partir de los hallazgos del artículo, ¿cuáles son las principales conclusiones que extraes sobre la confiabilidad de los diferentes tests de normalidad? ¿Cómo podrías comunicar estos hallazgos a un equipo de investigadores no especializados en estadística?
Conceptos clave artículo: EPV, estadísticos de orden, simulación montecarlo.
Guía 2-Ejercicio de simulación: comparación pruebas de normalidad.
Resumen y cierre.
Los estadísticos de orden son variables aleatorias que se obtienen al ordenar una muestra de datos.
Si \(X_1, X_2, \cdots, X_n\) es una muestra de variables aleatorias continuas, independientes e idénticamente distribuidas, al ordenar estos datos de forma creciente, obtenemos (Wackerly et al. 2009):
\[ X(1)≤X(2)≤⋯≤X(n), \]
donde \(X_{(1)}\) es el mínimo de la muestra, \(X_{(n)}\) es el máximo, y en general \(X_{(k)}\) es el k-ésimo estadístico de orden.
Imaginemos que se está estudiando la distribución de los tiempos de supervivencia (en días) de pacientes que han sido diagnosticados con una determinada enfermedad.
Si \(T_1, T_2, \cdots, T_n\) representan los tiempos de supervivencia de una muestra de n pacientes, se pueden ordenar de menor a mayor:
\[ T_{(1)} \leq T_{(1)} \leq \cdots T_{(n)} \]
\[ \text{Mediana} = \begin{cases} T_{\left(\frac{n+1}{2}\right)}, & \text{si } n \text{ es impar}, \\ \frac{1}{2} \left( T_{\left(\frac{n}{2}\right)} + T_{\left(\frac{n}{2}+1\right)} \right), & \text{si } n \text{ es par}. \end{cases} \]
\[ Q_1 = T_{\left(\lceil 0.25 \, n \rceil \right)} \quad \text{y} \quad Q_3 = T_{\left(\lceil 0.75 \, n \rceil \right)}, \]
donde \(\lceil \cdot \rceil\) denota la función techo, que redondea al entero más cercano por arriba.
# 4. Ordenar los tiempos de supervivencia de menor a mayor
ordered_times <- sort(survival_times)
cat("Tiempos de supervivencia ordenados:\n")Tiempos de supervivencia ordenados:
[1] 0.01018847 0.12863760 0.39561271 0.41099794 0.45320501 0.61679631
[7] 0.76113691 1.03533538 1.68801142 2.10189062 2.78642756 6.12886110
[13] 7.39187609 11.64217182 12.54007759 12.70896287 13.99002155 16.17126793
[19] 17.93712838 24.89819212
Para realizar una prueba de normalidad partimos del supuesto común de que los datos de la muestra \(X_1, X_2, \cdots, X_n\) son continuos, independientes e idénticamente distribuidas con una función de distribución desconocida \(F(X,\varTheta)\), donde \(\varTheta\) es el vector de parámetros.
Cualquier prueba de normalidad contrasta las siguientes hipótesis:
\(H_0: F \in F_0(\mu,\sigma^2)\) La muestra proviene de una población con distribución normal vs
\(H_0: F \notin F_0(\mu,\sigma^2)\) La muestra NO proviene de una población con distribución normal
donde \(F_0()\) denota la distribución de probabilidad bajo \(H_0\) cierta (Normal) (Mbah and Paothong 2015).
| Nombre de la Prueba | Librería en R | Función en R |
|---|---|---|
| Kolmogorov-Smirnov (KS) | stats | ks.test() |
| Anderson-Darling (AD) | nortest | ad.test() |
| Cramér-von Mises (CM) | nortest | cvm.test() |
| Lilliefors (LF) | nortest | lillie.test() |
| Shapiro-Wilk (SW) | stats | shapiro.test() |
| Pearson chi-cuadrado (PC) | nortest | pearson.test() |
| Jarque-Bera (JB) | moments | jarque.test() |
| D’Agostino (DA) | moments | agostino.test() |