kolmogorov.knit

📐 8.2. PRUEBA DE BONDAD DE AJUSTE DE KOLMOGOROV–SMIRNOV: FUNDAMENTOS TEÓRICOS

Comparación entre distribución empírica y distribución teórica especificada

1 🧠 Hipótesis a contrastar

\[ \begin{cases} H_0: \text{Los datos analizados siguen una distribución } M \\ H_1: \text{Los datos analizados no siguen una distribución } M \end{cases} \]

Donde \(M\) es la distribución teórica que se especifica (en este ejemplo: distribución normal).

2 📏 Estadístico de contraste

\[ D = \sup_{1 \le i \le n} \left| \hat{F}_n(x_i) - F_0(x_i) \right| \]

Significado de los términos:

\(x_i\): i-ésimo valor observado en la muestra (previamente ordenados de menor a mayor).
\(\hat{F}_n(x_i)\): frecuencia acumulada empírica = proporción de observaciones ≤ \(x_i\).
\(F_0(x_i)\): frecuencia acumulada teórica según la distribución \(M\) bajo \(H_0\).

🧩 Interpretación:
\(D\) es la máxima distancia vertical entre la función de distribución empírica y la teórica.

Si \(D\) es pequeño → las distribuciones son similares → evidencia a favor de \(H_0\).
Si \(D\) es grande → hay discrepancia → evidencia en contra de \(H_0\).

3 ⚖️ Regla de decisión

\[ \begin{cases} D \le D_\alpha & \Rightarrow \text{Aceptar } H_0 \\ D > D_\alpha & \Rightarrow \text{Rechazar } H_0 \end{cases} \]

Donde \(D_\alpha\) se elige tal que:

\[ P(\text{Rechazar } H_0 \mid H_0 \text{ es cierta}) = P(D > D_\alpha \mid H_0) = \alpha \]

\(\alpha\): nivel de significación (generalmente 0.05 o 0.01).

4 🧮 Cálculo práctico del estadístico D

Para evitar el supremo continuo, se usan las fórmulas discretas:

\[ D^+ = \max_{1 \le i \le n} \left\{ \frac{i}{n} - F_0(x_i) \right\} \] \[ D^- = \max_{1 \le i \le n} \left\{ F_0(x_i) - \frac{i-1}{n} \right\} \]

Y finalmente:

\[ D = \max\{D^+, D^-\} \]

Nota:
- \(\frac{i}{n}\) = frecuencia empírica en \(x_i\)
- \(\frac{i-1}{n}\) = frecuencia empírica justo antes de \(x_i\)
- \(F_0(x_i)\) = frecuencia teórica en \(x_i\)

5 📊 Valor crítico \(D_\alpha\) para el caso normal

Para la distribución normal (con media y varianza estimadas a partir de la muestra), el valor crítico se aproxima como:

\[ D_\alpha = \frac{c_\alpha}{k(n)} \]

De las tablas incluidas en el PDF:

Modelo	\(c_\alpha\) (α = 0.05)	\(k(n)\)
Normal	0.895	\(\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}}\)
General	1.358	\(\sqrt{n} + 0.12 + \frac{0.11}{\sqrt{n}}\)
Exponencial	1.094	\(\sqrt{n} + 0.12 + \frac{0.11}{\sqrt{n}}\)

Por lo tanto, para el caso normal:

\[ D_{0.05} = \frac{0.895}{\sqrt{n} - 0.01 + \frac{0.85}{\sqrt{n}}} \]

6 🧪 Ejemplo concreto (extraído del PDF)

Datos originales en la primera columna:

\[ 6.0,\; 2.3,\; 4.8,\; 5.6,\; 4.5,\; 3.4,\; 3.3,\; 1.9,\; 4.8,\; 4.5 \]

Resultados del cálculo (tabla completa):

Y	Y-ordenados	Orden	F = i/n	Z	Fo	D+	D-
6.0	1.9	1	0.1	-1.628	0.051	0.049	0.051
2.3	2.3	2	0.2	-1.332	0.091	0.109	-0.009
4.8	3.3	3	0.3	-0.592	0.276	0.024	0.076
5.6	3.4	4	0.4	-0.518	0.302	0.098	0.002
4.5	4.5	5	0.5	0.296	0.616	-0.116	0.216*
3.4	4.5	6	0.6	0.296	0.616	-0.016	0.116
3.3	4.8	7	0.7	0.518	0.698	0.002	0.098
1.9	4.8	8	0.8	0.518	0.698	0.102	-0.002
4.8	5.6	9	0.9	1.110	0.867	0.033	0.067
4.5	6.0	10	1.0	1.406	0.920	0.080	0.020

Parámetros muestrales:
\[ \bar{x} \approx 4.1, \quad s^2 \approx 1.82, \quad s \approx 1.35 \]

Estadístico observado:
\[ D = \max(0.216, 0.109) = 0.216 \]

Valor crítico (n=10, α=0.05):
\[ D_{0.05} = \frac{0.895}{\sqrt{10} - 0.01 + \frac{0.85}{\sqrt{10}}} \approx \frac{0.895}{3.421} \approx 0.262 \]

Decisión:
\[ 0.216 < 0.262 \quad \Rightarrow \quad \text{No se rechaza } H_0 \]

✅ Conclusión: Los datos son compatibles con una distribución normal.

7 🧾 Cálculo del p-valor (concepto teórico)

El p-valor se define como:

\[ p\text{-valor} = P(D > D_{\text{obs}} \mid H_0 \text{ es cierta}) \]

Si \(p\text{-valor} \ge \alpha\) → Aceptar \(H_0\)
Si \(p\text{-valor} < \alpha\) → Rechazar \(H_0\)

En el ejemplo, dado que \(D_{\text{obs}} = 0.216\) es menor que el valor crítico, el p-valor será mayor que 0.05, apoyando la no-rechazo de \(H_0\).

8 📌 Observaciones importantes (basadas en el PDF)

Poca información (n pequeño):
Con muestras pequeñas (como n=10), la prueba tiende a no rechazar \(H_0\) a menos que haya evidencia muy fuerte en contra.
Corrección por estimación de parámetros:
Cuando se estiman media y varianza de la muestra, se usa una corrección en \(k(n)\) (el término \(-0.01 + 0.85/\sqrt{n}\)).
Tablas de \(c_\alpha\):
Dependen de la distribución teórica contrastada (normal, exponencial, Weibull, general).

📘 Resumen conceptual: La prueba de Kolmogorov–Smirnov compara directamente dos funciones de distribución acumuladas. Es una prueba no paramétrica, sensible a diferencias en forma, ubicación y escala, pero con menor potencia que pruebas específicas como Shapiro–Wilk para detectar desvíos de la normalidad en muestras pequeñas.

📊 8.1. PRUEBA DE KOLMOGOROV–SMIRNOV PARA NORMALIDAD: PASO A PASO

Comparación de la distribución empírica con una distribución normal teórica

9 📌 ¿Qué es la prueba de Kolmogorov–Smirnov (K-S)?

La prueba de Kolmogorov–Smirnov es una prueba no paramétrica que compara la función de distribución acumulada empírica de una muestra con una función de distribución acumulada teórica especificada (en este caso, la normal).

El estadístico \(D\) mide la máxima distancia vertical entre ambas funciones:

\[ D = \max_i \left| F(Y_i) - F_o(Y_i) \right| \]

Donde:

\(F(Y_i) = \frac{i}{n}\) es la frecuencia relativa acumulada empírica (datos ordenados).
\(F_o(Y_i)\) es la probabilidad acumulada teórica según la distribución normal con media y varianza muestrales.

10 🎯 Objetivo del ejemplo

Determinar si los siguientes datos provienen de una distribución normal:

\[ 6.0,\; 2.3,\; 4.8,\; 5.6,\; 4.5,\; 3.4,\; 3.3,\; 1.9,\; 4.8,\; 4.5 \]

11 🧮 Paso a paso

11.1 1️⃣ Ordenar los datos

i	\(Y_{(i)}\) ordenado
1	1.9
2	2.3
3	3.3
4	3.4
5	4.5
6	4.5
7	4.8
8	4.8
9	5.6
10	6.0

\[ n = 10 \]

11.2 2️⃣ Calcular la media muestral

\[ \bar{x} = \frac{\sum x_i}{n} = \frac{41.1}{10} = 4.11 \approx 4.1 \]

11.3 3️⃣ Calcular la varianza y desviación estándar

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} = \frac{16.369}{9} = 1.818 \approx 1.82 \] \[ s = \sqrt{1.82} \approx 1.35 \]

11.4 4️⃣ Calcular los valores Z

\[ Z = \frac{Y_{(i)} - \bar{x}}{s} \]

\(Y_{(i)}\)	\(Z\)
1.9	-1.628
2.3	-1.332
3.3	-0.592
3.4	-0.518
4.5	0.296
4.5	0.296
4.8	0.518
4.8	0.518
5.6	1.110
6.0	1.406

11.5 5️⃣ Buscar probabilidades acumuladas \(F_o(Z)\) (tabla normal estándar)

\(Y_{(i)}\)	\(Z\)	\(F_o\)
1.9	-1.628	0.051
2.3	-1.332	0.091
3.3	-0.592	0.276
3.4	-0.518	0.302
4.5	0.296	0.616
4.5	0.296	0.616
4.8	0.518	0.698
4.8	0.518	0.698
5.6	1.110	0.867
6.0	1.406	0.920

11.6 6️⃣ Calcular la distribución empírica \(F = i/n\)

\[ F = \frac{i}{10} \]

i	\(F\)
1	0.1
2	0.2
3	0.3
4	0.4
5	0.5
6	0.6
7	0.7
8	0.8
9	0.9
10	1.0

11.7 7️⃣ Calcular \(D^+ = F - F_o\)

i	\(F\)	\(F_o\)	\(D^+\)
1	0.1	0.051	0.049
2	0.2	0.091	0.109
3	0.3	0.276	0.024
4	0.4	0.302	0.098
5	0.5	0.616	-0.116
6	0.6	0.616	-0.016
7	0.7	0.698	0.002
8	0.8	0.698	0.102
9	0.9	0.867	0.033
10	1.0	0.920	0.080

11.8 8️⃣ Calcular \(D^- = F_o - (i-1)/n\)

i	\(F_o\)	\((i-1)/n\)	\(D^-\)
1	0.051	0.000	0.051
2	0.091	0.100	-0.009
3	0.276	0.200	0.076
4	0.302	0.300	0.002
5	0.616	0.400	0.216
6	0.616	0.500	0.116
7	0.698	0.600	0.098
8	0.698	0.700	-0.002
9	0.867	0.800	0.067
10	0.920	0.900	0.020

11.9 9️⃣ Estadístico de prueba \(D\)

\[ D = \max(|D^+|, |D^-|) = \max(0.109,\; 0.216) = 0.216 \]

11.10 🔟 Valor crítico \(D_\alpha\) (aproximación de la imagen)

\[ D_\alpha = \frac{0.895}{\sqrt{10} - 0.01 + \frac{0.85}{\sqrt{10}}} \]

\[ \sqrt{10} = 3.162,\quad \frac{0.85}{3.162} = 0.269 \]

\[ D_\alpha = \frac{0.895}{3.162 - 0.01 + 0.269} = \frac{0.895}{3.421} = 0.262 \]

11.11 1️⃣1️⃣ Decisión

\[ D = 0.216 \quad < \quad D_\alpha = 0.262 \]

✅ No se rechaza la hipótesis nula (\(H_0\): los datos siguen una distribución normal).

12 🟢 Conclusión final

Los datos
\[ 6.0,\; 2.3,\; 4.8,\; 5.6,\; 4.5,\; 3.4,\; 3.3,\; 1.9,\; 4.8,\; 4.5 \]
son compatibles con una distribución normal según la prueba de Kolmogorov–Smirnov, con un nivel de significancia aproximado \(\alpha = 0.05\).

📘 Nota importante: La prueba K-S para normalidad requiere estimar media y varianza de la muestra, lo que reduce ligeramente los grados de libertad. La aproximación usada en la imagen es una corrección empírica común para muestras pequeñas.