4 Pruebas de bondad de ajuste

4.1 Introducción

Imagina que llegas a una planta donde el jefe de calidad te pide responder una pregunta simple pero crucial: “¿Nuestros datos se comportan como suponemos?”. Si modelas el número de defectos por lote como Poisson, o los tiempos entre fallas como exponenciales, o los tiempos de ciclo como normales, todo el plan de muestreo, los intervalos de confianza y hasta las decisiones de inversión dependen de que ese supuesto sea razonable. Las pruebas de bondad de ajuste son el puente entre la intuición del ingeniero y la evidencia de los datos: miden cuán compatible es la distribución teórica con lo que realmente observas.

El punto de partida es fijar una hipótesis nula (por ejemplo, “los tiempos entre fallas son exponenciales con tasa λ”) y convertir la comparación datos vs modelo en una magnitud numérica. La prueba ji-cuadrada compara frecuencias observadas con frecuencias esperadas en clases. Es directa, especialmente en variables discretas (defectos por lote), y funciona bien cuando el tamaño muestral permite que cada clase tenga al menos cinco esperados. Sin embargo, requiere agrupar, lo que puede ocultar discrepancias finas si el binning (nnumero de intervalos de clase) es inadecuado.

Cuando los datos son continuos y no quieres perder información al agrupar, entra Kolmogorov–Smirnov. Esta prueba construye la función de distribución empírica y mira la máxima separación respecto de la distribución teórica. Si esa brecha es demasiado grande para atribuirla al azar, rechazas el modelo. Su ventaja es la simplicidad y el no depender de clases; su limitación es que trata todas las discrepancias por igual, y en ingeniería muchas veces importan especialmente las colas (tiempos muy largos, cargas muy altas). Hay consideraciones prácticas que no debes pasar por alto. Primero, estimar parámetros desde los mismos datos modifica la distribución del estadístico (p. ej., normal con media y varianza desconocidas): por eso verás ajustes como Lilliefors o valores críticos específicos. Segundo, el tamaño muestral importa: con muestras pequeñas, la potencia de las pruebas puede ser baja (no detectan desajustes reales); con muestras enormes, detectarán desviaciones mínimas sin relevancia práctica. Tercero, un p-valor grande no “prueba” que el modelo sea verdadero: solo indica que los datos no contradicen fuertemente el supuesto. La elección final debe apoyarse también en gráficos de diagnóstico (QQ-plots, residuos) y en el contexto del proceso.

En la práctica, una rutina eficaz es: formular el modelo (y por qué es útil), estimar sus parámetros, visualizar los datos frente al modelo, aplicar K–S en continuas (ji-cuadrada en discretas o datos agrupados), revisar supuestos y, si es necesario, considerar transformaciones o distribuciones alternativas. Así construirás decisiones sólidas sobre evidencia cuantitativa.

4.2 Objetivo general

Cuantificar, de forma objetiva y reproducible, qué tan compatible es un conjunto de datos con una distribución teórica específica, traduciendo la discrepancia datos–modelo en un estadístico y un nivel de evidencia (p-valor) para apoyar decisiones de modelado en ingeniería.

4.2.1 Objetivos específicos

4.2.1.1 Lo que se puede hacer

  1. Validar supuestos de modelo antes de estimar, optimizar o simular (p. ej., normalidad en tiempos de proceso, Poisson en conteos de defectos).
  2. Detectar desajustes relevantes en el centro o en las colas (según la prueba: Ji-cuadrada para frecuencias; Kolmogorov–Smirnov para discrepancia global; Anderson–Darling con énfasis en colas).
  3. Comparar alternativas y escoger la que mejor describe el fenómeno con criterios cuantitativos y relevancia operativa.
  4. Comparar alternativas y escoger la que mejor describe el fenómeno con criterios cuantitativos y relevancia operativa.

4.2.1.2 Lo que no se puede hacer

  1. No “prueban” que una distribución sea verdadera; sólo evalúan compatibilidad con los datos observados.
  2. Su conclusión depende del tamaño muestral y de si los parámetros se estiman desde los mismos datos (ajustes a valores críticos).
  3. Un p-valor grande no garantiza perfección del modelo; un p-valor pequeño no indica automáticamente relevancia práctica.

4.3 Pruebas de bondad de ajuste

4.3.1 Prueba de bondad de ajuste ji-cuadrada (\(x^2\))

La prueba de bondad de ajuste ji-cuadrada se fundamenta en la capacidad de la distribución del mismo nombre de detectar si existen diferencias significativas entre la variación muestral con respecto a la variación teórica o desconocida, en esencia, el estadístico de prueba para esta distribución muestral está definido por el estadístico de la distribución \(x^2_0\) con \(n-1\) grados de libertad:

\[{x^2_0}=\dfrac{(n-1){s^2}}{\sigma^2_0}\]
Donde \(n\) corresponde al tamaño de la muestra, \(s^2\) corresponde a la varianza muestra y \({\sigma^2_0}\) corresponde a la varianza teórica o desconocida.

Para utilizar esta distribución de probabilidad en la cuantificación de las discrepancias entre la variación muestral y la variación teòrica, utilizaremos la siguiente adaptación:

\[{x^2_0}=\sum_{i=1}^k{\dfrac{(E_i-O_i)^2}{E_i}}\]

donde \(E_i\) corresponde a la frecuencia esperada en la \(i\)-ésima categoría o intervalo de clase, \(O_i\) corresponde a la frecuencia observada en la \(i\)-ésima categoría o intervalo de clase. El estadístico obtenido se aproxima muy bien a una distribución \(x_2\) con \(v=k-1\) grados de libertad, donde \(k\) es el número de categorías o intervalos de clase. Como es de observarse, para poder usar esta distribución de probabilidad es necesario agrupar los datos.

4.3.2 Prueba de bondad de ajuste de Kolmogrov-Smirnov

La prueba Kolmogorov–Smirnov (KS) se fundamenta en comparar, sin agrupar datos, la distribución acumulada empírica de la muestra con la distribución acumulada teórica postulada. Su fortaleza radica en que mide la máxima discrepancia puntual entre ambas curvas, capturando diferencias globales en forma y localización.

La expresión matemática utilizada para la prueba de bondad de ajuste K-S se define como:

\[{F_n}(x)=\dfrac{1}{n}{\sum_{i=1}^{n}}(X_i \leq x)\]

Dada una distribución teórica (completamente especificada), el estadísitica K-S bilateral es:

\[D_n = \sup_{x \in \mathbb{R}} |F_n(x) - F_0(x)|\]

Bajo la hipótesis nula \({H_0}:F=F_0\), para distribuciones contínuas, el estadístico \(D_n\) tiene una distribución nula conocida, independiente de \(F_0\), por lo tanto, se rechaza la hipótesis nula si \(D_n > D_{\alpha,n}\), donde \(D_{\alpha,n}\) corresponde al valor tabulado para la distribución de Kolomogorov-Smirnov, misma que puedes descargar en el siguiente enlace:

Tabla KS

4.4 Ejemplos prácticos

Para ejemplificar la utilidad de las pruebas de bondad de ajuste, se proponen los siguientes ejemplos prácticos:

4.4.1 Ejemplo 1. Prueba de bondad de ajuste \(x^2\)

4.4.2 Ejemplo 2. Prueba de bondad de ajuste de Kolmogorov-Smirnov