Comparación entre distribución empírica y distribución teórica especificada
\[ \begin{cases} H_0: \text{Los datos analizados siguen una distribución } M \\ H_1: \text{Los datos analizados no siguen una distribución } M \end{cases} \]
Donde \(M\) es la distribución teórica que se especifica (en este ejemplo: distribución normal).
\[ D = \sup_{1 \le i \le n} \left| \hat{F}_n(x_i) - F_0(x_i) \right| \]
Significado de los términos:
🧩 Interpretación:
\(D\) es la máxima distancia vertical entre la función de distribución empírica y la teórica.
\[ \begin{cases} D \le D_\alpha & \Rightarrow \text{Aceptar } H_0 \\ D > D_\alpha & \Rightarrow \text{Rechazar } H_0 \end{cases} \]
Donde \(D_\alpha\) se elige tal que:
\[ P(\text{Rechazar } H_0 \mid H_0 \text{ es cierta}) = P(D > D_\alpha \mid H_0) = \alpha \]
\(\alpha\): nivel de significación (generalmente 0.05 o 0.01).
Para evitar el supremo continuo, se usan las fórmulas discretas:
\[ D^+ = \max_{1 \le i \le n} \left\{ \frac{i}{n} - F_0(x_i) \right\} \] \[ D^- = \max_{1 \le i \le n} \left\{ F_0(x_i) - \frac{i-1}{n} \right\} \]
Y finalmente:
\[ D = \max\{D^+, D^-\} \]
Nota:
- \(\frac{i}{n}\) = frecuencia empírica
en \(x_i\)
- \(\frac{i-1}{n}\) = frecuencia
empírica justo antes de \(x_i\)
- \(F_0(x_i)\) = frecuencia teórica en
\(x_i\)
Para la distribución normal (con media y varianza estimadas a partir de la muestra), el valor crítico se aproxima como:
\[ D_\alpha = \frac{c_\alpha}{k(n)} \]
De las tablas incluidas en el PDF:
| Modelo | \(c_\alpha\) (α = 0.05) | \(k(n)\) |
|---|---|---|
| Normal | 0.895 | \(\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}}\) |
| General | 1.358 | \(\sqrt{n} + 0.12 + \frac{0.11}{\sqrt{n}}\) |
| Exponencial | 1.094 | \(\sqrt{n} + 0.12 + \frac{0.11}{\sqrt{n}}\) |
Por lo tanto, para el caso normal:
\[ D_{0.05} = \frac{0.895}{\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}}} \]
Datos originales en la primera columna:
\[ 6.0,\; 2.3,\; 4.8,\; 5.6,\; 4.5,\; 3.4,\; 3.3,\; 1.9,\; 4.8,\; 4.5 \]
Resultados del cálculo (tabla completa):
| Y | Y-ordenados | Orden | F = i/n | Z | Fo | D+ | D- |
|---|---|---|---|---|---|---|---|
| 6.0 | 1.9 | 1 | 0.1 | -1.628 | 0.051 | 0.049 | 0.051 |
| 2.3 | 2.3 | 2 | 0.2 | -1.332 | 0.091 | 0.109 | -0.009 |
| 4.8 | 3.3 | 3 | 0.3 | -0.592 | 0.276 | 0.024 | 0.076 |
| 5.6 | 3.4 | 4 | 0.4 | -0.518 | 0.302 | 0.098 | 0.002 |
| 4.5 | 4.5 | 5 | 0.5 | 0.296 | 0.616 | -0.116 | 0.216* |
| 3.4 | 4.5 | 6 | 0.6 | 0.296 | 0.616 | -0.016 | 0.116 |
| 3.3 | 4.8 | 7 | 0.7 | 0.518 | 0.698 | 0.002 | 0.098 |
| 1.9 | 4.8 | 8 | 0.8 | 0.518 | 0.698 | 0.102 | -0.002 |
| 4.8 | 5.6 | 9 | 0.9 | 1.110 | 0.867 | 0.033 | 0.067 |
| 4.5 | 6.0 | 10 | 1.0 | 1.406 | 0.920 | 0.080 | 0.020 |
Parámetros muestrales:
\[
\bar{x} \approx 4.1, \quad s^2 \approx 1.82, \quad s \approx 1.35
\]
Estadístico observado:
\[
D = \max(0.216, 0.109) = 0.216
\]
Valor crítico (n=10, α=0.05):
\[
D_{0.05} = \frac{0.895}{\sqrt{10} - 0.01 + \frac{0.85}{\sqrt{10}}}
\approx \frac{0.895}{3.421} \approx 0.262
\]
Decisión:
\[
0.216 < 0.262 \quad \Rightarrow \quad \text{No se rechaza } H_0
\]
✅ Conclusión: Los datos son compatibles con una distribución normal.
El p-valor se define como:
\[ p\text{-valor} = P(D > D_{\text{obs}} \mid H_0 \text{ es cierta}) \]
En el ejemplo, dado que \(D_{\text{obs}} = 0.216\) es menor que el valor crítico, el p-valor será mayor que 0.05, apoyando la no-rechazo de \(H_0\).
Poca información (n pequeño):
Con muestras pequeñas (como n=10), la prueba tiende a no
rechazar \(H_0\) a menos que
haya evidencia muy fuerte en contra.
Corrección por estimación de parámetros:
Cuando se estiman media y varianza de la muestra, se usa una corrección
en \(k(n)\) (el término \(-0.01 + 0.85/\sqrt{n}\)).
Tablas de \(c_\alpha\):
Dependen de la distribución teórica contrastada (normal, exponencial,
Weibull, general).
📘 Resumen conceptual: La prueba de Kolmogorov–Smirnov compara directamente dos funciones de distribución acumuladas. Es una prueba no paramétrica, sensible a diferencias en forma, ubicación y escala, pero con menor potencia que pruebas específicas como Shapiro–Wilk para detectar desvíos de la normalidad en muestras pequeñas.
Comparación de la distribución empírica con una distribución normal teórica
La prueba de Kolmogorov–Smirnov es una prueba no paramétrica que compara la función de distribución acumulada empírica de una muestra con una función de distribución acumulada teórica especificada (en este caso, la normal).
El estadístico \(D\) mide la máxima distancia vertical entre ambas funciones:
\[ D = \max_i \left| F(Y_i) - F_o(Y_i) \right| \]
Donde:
Determinar si los siguientes datos provienen de una distribución normal:
\[ 6.0,\; 2.3,\; 4.8,\; 5.6,\; 4.5,\; 3.4,\; 3.3,\; 1.9,\; 4.8,\; 4.5 \]
| i | \(Y_{(i)}\) ordenado |
|---|---|
| 1 | 1.9 |
| 2 | 2.3 |
| 3 | 3.3 |
| 4 | 3.4 |
| 5 | 4.5 |
| 6 | 4.5 |
| 7 | 4.8 |
| 8 | 4.8 |
| 9 | 5.6 |
| 10 | 6.0 |
\[ n = 10 \]
\[ \bar{x} = \frac{\sum x_i}{n} = \frac{41.1}{10} = 4.11 \approx 4.1 \]
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} = \frac{16.369}{9} = 1.818 \approx 1.82 \] \[ s = \sqrt{1.82} \approx 1.35 \]
\[ Z = \frac{Y_{(i)} - \bar{x}}{s} \]
| \(Y_{(i)}\) | \(Z\) |
|---|---|
| 1.9 | -1.628 |
| 2.3 | -1.332 |
| 3.3 | -0.592 |
| 3.4 | -0.518 |
| 4.5 | 0.296 |
| 4.5 | 0.296 |
| 4.8 | 0.518 |
| 4.8 | 0.518 |
| 5.6 | 1.110 |
| 6.0 | 1.406 |
| \(Y_{(i)}\) | \(Z\) | \(F_o\) |
|---|---|---|
| 1.9 | -1.628 | 0.051 |
| 2.3 | -1.332 | 0.091 |
| 3.3 | -0.592 | 0.276 |
| 3.4 | -0.518 | 0.302 |
| 4.5 | 0.296 | 0.616 |
| 4.5 | 0.296 | 0.616 |
| 4.8 | 0.518 | 0.698 |
| 4.8 | 0.518 | 0.698 |
| 5.6 | 1.110 | 0.867 |
| 6.0 | 1.406 | 0.920 |
\[ F = \frac{i}{10} \]
| i | \(F\) |
|---|---|
| 1 | 0.1 |
| 2 | 0.2 |
| 3 | 0.3 |
| 4 | 0.4 |
| 5 | 0.5 |
| 6 | 0.6 |
| 7 | 0.7 |
| 8 | 0.8 |
| 9 | 0.9 |
| 10 | 1.0 |
| i | \(F\) | \(F_o\) | \(D^+\) |
|---|---|---|---|
| 1 | 0.1 | 0.051 | 0.049 |
| 2 | 0.2 | 0.091 | 0.109 |
| 3 | 0.3 | 0.276 | 0.024 |
| 4 | 0.4 | 0.302 | 0.098 |
| 5 | 0.5 | 0.616 | -0.116 |
| 6 | 0.6 | 0.616 | -0.016 |
| 7 | 0.7 | 0.698 | 0.002 |
| 8 | 0.8 | 0.698 | 0.102 |
| 9 | 0.9 | 0.867 | 0.033 |
| 10 | 1.0 | 0.920 | 0.080 |
| i | \(F_o\) | \((i-1)/n\) | \(D^-\) |
|---|---|---|---|
| 1 | 0.051 | 0.000 | 0.051 |
| 2 | 0.091 | 0.100 | -0.009 |
| 3 | 0.276 | 0.200 | 0.076 |
| 4 | 0.302 | 0.300 | 0.002 |
| 5 | 0.616 | 0.400 | 0.216 |
| 6 | 0.616 | 0.500 | 0.116 |
| 7 | 0.698 | 0.600 | 0.098 |
| 8 | 0.698 | 0.700 | -0.002 |
| 9 | 0.867 | 0.800 | 0.067 |
| 10 | 0.920 | 0.900 | 0.020 |
\[ D = \max(|D^+|, |D^-|) = \max(0.109,\; 0.216) = 0.216 \]
\[ D_\alpha = \frac{0.895}{\sqrt{10} - 0.01 + \frac{0.85}{\sqrt{10}}} \]
\[ \sqrt{10} = 3.162,\quad \frac{0.85}{3.162} = 0.269 \]
\[ D_\alpha = \frac{0.895}{3.162 - 0.01 + 0.269} = \frac{0.895}{3.421} = 0.262 \]
\[ D = 0.216 \quad < \quad D_\alpha = 0.262 \]
✅ No se rechaza la hipótesis nula (\(H_0\): los datos siguen una distribución normal).
Los datos
\[ 6.0,\; 2.3,\; 4.8,\; 5.6,\; 4.5,\; 3.4,\; 3.3,\; 1.9,\; 4.8,\; 4.5 \]
son compatibles con una distribución normal según la prueba de Kolmogorov–Smirnov, con un nivel de significancia aproximado \(\alpha = 0.05\).
📘 Nota importante: La prueba K-S para normalidad requiere estimar media y varianza de la muestra, lo que reduce ligeramente los grados de libertad. La aproximación usada en la imagen es una corrección empírica común para muestras pequeñas.