CLASE 2: PRUEBAS DE NORMALIDAD

Comparación de principales pruebas de normalidad

Jaime Gaviria, profesor Dpto Ciencias básicas

Universidad de Antioquia, Facultad Nacional de Salud Pública

2025-02-06

Agenda de la clase

  1. Primera parte:

    1. Revisión ejercicios guía 1.

    2. Revisión lectura dirigida 2: preguntas.

  2. Descanso

  3. Segunda parte:

    1. Conceptos clave artículo: EPV, estadísticos de orden, simulación montecarlo.

    2. Guía 2-Ejercicio de simulación: comparación pruebas de normalidad.

    3. Resumen y cierre.

Primera parte

Revisión ejercicios guía 1

  1. Ejercicios práctico 1 y 2 (estudiantes).

  2. Ejercicio práctico 3: comprobando el TLC(Realizar en clase)

Revisión lectura dirigida 2:

Shapiro–Francia test compared to other normality test using expected p-value

Preguntas lectura 2

  1. ¿Cuáles son las principales ventajas y desventajas del test de Shapiro-Francia en comparación con otros tests de normalidad evaluados en el estudio? ¿En qué contextos epidemiológicos sería más recomendable su uso?.

  2. Según los resultados de la simulación, ¿cómo afecta el tamaño de muestra al desempeño de las diferentes pruebas de normalidad? ¿Qué implicaciones tiene esto para el análisis de datos en estudios epidemiológicos con muestras pequeñas o grandes?.

Preguntas 3 a 5

  1. Los autores utilizan el valor p esperado (EPV) en lugar de la potencia del test para comparar el desempeño de las pruebas. ¿Por qué crees que tomaron esta decisión? ¿Consideras que esta métrica es la más adecuada para evaluar la efectividad de una prueba de normalidad?.

  2. En un estudio epidemiológico en el que necesitas evaluar la normalidad de una variable continua, ¿qué criterios utilizarías para seleccionar una prueba de normalidad basada en la evidencia presentada en el artículo?.

  3. A partir de los hallazgos del artículo, ¿cuáles son las principales conclusiones que extraes sobre la confiabilidad de los diferentes tests de normalidad? ¿Cómo podrías comunicar estos hallazgos a un equipo de investigadores no especializados en estadística?

Descanso

SEGUNDA PARTE

  1. Conceptos clave artículo: EPV, estadísticos de orden, simulación montecarlo.

  2. Guía 2-Ejercicio de simulación: comparación pruebas de normalidad.

  3. Resumen y cierre.

Conceptos clave lectura 2

Estadísticos de orden

Los estadísticos de orden son variables aleatorias que se obtienen al ordenar una muestra de datos.

Si \(X_1, X_2, \cdots, X_n\) es una muestra de variables aleatorias continuas, independientes e idénticamente distribuidas, al ordenar estos datos de forma creciente, obtenemos (Wackerly et al. 2009):

\[ X(1)​≤X(2)​≤⋯≤X(n)​, \]

donde \(X_{(1)}\) es el mínimo de la muestra, \(X_{(n)}\) ​ es el máximo, y en general \(X_{(k)}\) ​ es el k-ésimo estadístico de orden.

Ejemplo: Estadísticos de orden en Epidemiología

  • Imaginemos que se está estudiando la distribución de los tiempos de supervivencia (en días) de pacientes que han sido diagnosticados con una determinada enfermedad.

  • Si \(T_1, T_2, \cdots, T_n\) representan los tiempos de supervivencia de una muestra de n pacientes, se pueden ordenar de menor a mayor:

\[ T_{(1)} \leq T_{(1)} \leq \cdots T_{(n)} \]

  • Uno de los estadísticos de orden más utilizados en este contexto es la mediana de supervivencia, la cual se define como:

\[ \text{Mediana} = \begin{cases} T_{\left(\frac{n+1}{2}\right)}, & \text{si } n \text{ es impar}, \\ \frac{1}{2} \left( T_{\left(\frac{n}{2}\right)} + T_{\left(\frac{n}{2}+1\right)} \right), & \text{si } n \text{ es par}. \end{cases} \]

Continuación ejemplo: Estadísticos de orden en Epidemiología

  • Además, los estadísticos de orden permiten calcular otros cuantiles, por ejemplo, los cuartiles \(Q_1\) y \(Q_3\):

\[ Q_1 = T_{\left(\lceil 0.25 \, n \rceil \right)} \quad \text{y} \quad Q_3 = T_{\left(\lceil 0.75 \, n \rceil \right)}, \]

donde \(\lceil \cdot \rceil\) denota la función techo, que redondea al entero más cercano por arriba.

  • Estos cuantiles son fundamentales para caracterizar la dispersión y la forma de la distribución de los tiempos de supervivencia en estudios epidemiológicos.

Guía de clase 2: Estadísticos de orden en R1

Instalación de librerías y parámetros de la simulación

# 1. Instalar y cargar el paquete DescTools si aún no está instalado
library(pacman)
p_load(DescTools)
# 2. Establecer los parámetros de la simulación
set.seed(527)         # Para reproducibilidad
n <- 20               # Tamaño de la muestra (número de pacientes)
lambda <- 0.1         # Tasa de la distribución exponencial (esperanza = 1/lambda)
k <- 3                # Estadístico de orden deseado (tercer menor tiempo de supervivencia)

Simulación de los tiempos de supervivencia

# 3. Simulación de los tiempos de supervivencia
survival_times <- rexp(n, rate = lambda)

## Ver en un gráfico los tiempos

hist(survival_times) ## pendiente: agregar curva de densidad

Obtener y graficar el estadístico de orden 3

# 4. Ordenar los tiempos de supervivencia de menor a mayor
ordered_times <- sort(survival_times)
cat("Tiempos de supervivencia ordenados:\n")
Tiempos de supervivencia ordenados:
print(ordered_times)
 [1]  0.01018847  0.12863760  0.39561271  0.41099794  0.45320501  0.61679631
 [7]  0.76113691  1.03533538  1.68801142  2.10189062  2.78642756  6.12886110
[13]  7.39187609 11.64217182 12.54007759 12.70896287 13.99002155 16.17126793
[19] 17.93712838 24.89819212
# 5. Seleccionar el tercer estadístico de orden (tercer menor tiempo)
observed_value <- ordered_times[k]
cat("\nEl tercer estadístico de orden observado es:", observed_value, "\n")

El tercer estadístico de orden observado es: 0.3956127 

Pruebas de normalidad

  • Para realizar una prueba de normalidad partimos del supuesto común de que los datos de la muestra \(X_1, X_2, \cdots, X_n\) son continuos, independientes e idénticamente distribuidas con una función de distribución desconocida \(F(X,\varTheta)\), donde \(\varTheta\) es el vector de parámetros.

  • Cualquier prueba de normalidad contrasta las siguientes hipótesis:

    • \(H_0: F \in F_0(\mu,\sigma^2)\) La muestra proviene de una población con distribución normal vs

    • \(H_0: F \notin F_0(\mu,\sigma^2)\) La muestra NO proviene de una población con distribución normal

donde \(F_0()\) denota la distribución de probabilidad bajo \(H_0\) cierta (Normal) (Mbah and Paothong 2015).

Principales pruebas de Normalidad en R

Nombre de la Prueba Librería en R Función en R
Kolmogorov-Smirnov (KS) stats ks.test()
Anderson-Darling (AD) nortest ad.test()
Cramér-von Mises (CM) nortest cvm.test()
Lilliefors (LF) nortest lillie.test()
Shapiro-Wilk (SW) stats shapiro.test()
Pearson chi-cuadrado (PC) nortest pearson.test()
Jarque-Bera (JB) moments jarque.test()
D’Agostino (DA) moments agostino.test()

Referencias

Mbah, Alfred K., and Arnut Paothong. 2015. “Shapiro–Francia Test Compared to Other Normality Test Using Expected p-Value.” Journal of Statistical Computation and Simulation 85 (15): 3002–16. https://doi.org/10.1080/00949655.2014.947986.
Wackerly, D. D., D. D. Wackerly, W. Mendenhall, and R. L. Scheaffer. 2009. Estadı́stica Matemática Con Aplicaciones. CENGAGE Learning. https://books.google.com.co/books?id=8bTfwAEACAAJ.