donde \(F\), es la distribución de la muestra aleatoria y \(F_0\) es una distribución teórica conocida, que puede ser: Uniforme, Poison, Normal,…, etc.
El problema de contrastar la bondad de ajuste es no paramétrico en el sentido de que no se trata de decidir entre distribuciones \(F_{\theta}\) que sólo difieren en el valor de \(\theta\).
Contrastes no paramétricos: bondad de ajuste
Para resolver un problema de bondad de ajuste cabe distinguir principalmente dos métodos:
Contrastes \(\chi^2\): Se descompone el recorrido de la distribución teórica en un número finito de subconjuntos o clases \(C_1, C_2,\dots, C_k\). Luego, se clasifican las observaciones según el subconjunto al que pertenezcan. Por último, se comparan las frecuencias observadas de cada \(C_i\) con las probabilidades teóricas correspondientes.
Contrastes de Kolmogorov-Smirnov: Consisten en comparar la distribución empírica con la teórica planteada en la hipótesis nula. Midiendo las distancias entre distribuciones puede saberse si la diferencia es importante o poco significativa.
Contrastes \(\chi^2\) de bondad de ajuste
Consideramos una variable aleatoria, \(X\), con distribución desconocida \(F\), de la que disponemos de una muestra aleatoria simple, \((X_1, X_2,\dots, X_n)\). Queremos contrastar si la muestra procede de una distribución \(F_0\), conocida:
Dividimos el recorrido de \(X\) en \(k\) clases, \(C_1, C_2,\dots, C_k\) y llamamos:
\(O_i=\) “Número de datos observados en \(C_i\)”
\(E_i =\) “Número de datos esperados en \(C_i\), si no se rechaza \(H_0\)”
para \(i = 1,2, \dots, k\), donde \(E_i = np_{i_0}\) y \(p_{i_0}\) es la probabilidad de pertenecer a \(C_i\) si la distribución de la hipótesis nula es la verdadera.
Contrastes \(\chi^2\) de bondad de ajuste
Pearson propuso el siguiente estadístico de contraste
\[
\chi^2=\sum_{i=1}^{k}\frac{(O_{i}-E_{i})^2}{E_{i}}\underset{aprox.}{\sim
}\chi_{k-1}^2, \text{ no se rechaza }H_0
\]
Este, proporciona una medida de discrepancia entre el número de observaciones en cada conjunto, \(C_i\), y el número que cabría esperar según \(F_0\), ponderadas por \(1/E_i\).
Ejemplo:
No parece lógico dar la misma importancia a una diferencia de 2 cuando se esperan 20 observaciones que cuando se esperan 5.
Contrastes \(\chi^2\) de bondad de ajuste
Observar que de este modo el contraste no paramétrico inicial se ha reducido al siguiente contraste paramétrico relativo a proporciones:
\(H_0 : p_i = p_{i_0}\), para todo \(i = 1,2,\dots, n\).
\(k-1-m\): son los grados de libertad. (\(k\): número de filas y \(m\): número de parámetros estimados.)
Ejemplo 1 - distribución uniforme
El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentran distribuido en forma equitativa durante los 5 días de trabajo de la semana. Con base en una muestra aleatoria de 4 semanas completas de trabajo, se observó el siguiente número de consultas:
Lunes
Martes
Miércoles
Jueves
Viernes
49
35
32
39
45
Con \(\alpha = 0.05\), ¿existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de la semana?
Solución
Una distribución uniforme lleva consigo que la probabilidad sería la misma para cada día de la semana. Por tanto \(p_i=0.2\) para \(i = 1, 2, 3, 4, 5\).
Las hipótesis nula y alterna son:
\(H_0 : p_i = 0.2\), para todo \(i = 1, 2,..., 5\).
No se rechazarsa la hipótesis nula \(H_0\), por lo tanto los empleados están “bien” distribuidos(uniformemente) de forma equitativa durante los días de la semana.
Solución en R
Code
# frecuencia observadaOi =c(49, 35, 32, 39, 45)n =sum(Oi)# estimación de parametros# no tiene# Probibilidad# como todos los dias tienen el mismo peso, entonces es una distribución uniformepi =c(1/5,1/5,1/5,1/5,1/5)# frecuencia esperadaEi = pi*nwhile(Ei[length(Ei)] <5){ Ei[length(Ei)-1] = Ei[length(Ei)] + Ei[length(Ei)-1] Ei = Ei[-length(Ei)]}# chi2 calculadochi20 =sum((Oi-Ei)^2/Ei)# grados de libertad para chi2 teoricok =length(Ei) # cantidad de clasesm =0#cantidad de parámetros calculadosgl = k -1- m # nivel de significancia para chi2 teoricoalpha =0.05# valor chi2 teoricochi2 =qchisq(alpha, df = gl, lower.tail =FALSE)# comparacion de los valores chi2cat(ifelse(chi20 <= chi2, "No se rechaza H0", "Se rechaza H0"))
No se rechaza H0
Ejemplo 2 - distribución de Poisson
Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. Los resultados obtenidos son los siguientes:
Número de defectos
Frecuencia observada (\(O_i\))
0
32
1
15
2
9
3 ó más
4
¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?. Haga la prueba de la bondad del ajuste con un \(\alpha= 0.05\).
Solución
Las hipótesis del problema son:
\(H_0\) : La forma de la distribución de los defectos es Poisson.
\(H_1\) : La forma de la distribución de los defectos no es Poisson.
Estimación de la media (\(\lambda\))
El parámetro de la media de la distribución Poisson, propuesta en este ejemplo es desconocida y por lo tanto, debemos estimarlo a partir de los datos contenidos en la muestra. Es decir,
No se rechazarsa la hipótesis nula \(H_0\), por lo tanto, el número de defectos en las tarjetas de circuito impreso, provienen de una distribución de Poisson.
Solución en R
Code
# frecuencia observadax =0:3Oi =c(32, 15, 9, 4)n =sum(Oi)# estimación de parametros# lambdalambda =sum(x*Oi)/n# Probibilidad estimada# useamos la funcion de densidadpi =c(dpois(0:2, lambda = lambda), 1-ppois(2, lambda = lambda))# frecuencia esperadaEi = pi*nwhile(Ei[length(Ei)] <5){ Ei[length(Ei)-1] = Ei[length(Ei)] + Ei[length(Ei)-1] Oi[length(Oi)-1] = Oi[length(Oi)] + Oi[length(Oi)-1] Ei = Ei[-length(Ei)] Oi = Oi[-length(Oi)]}# chi2 calculadochi20 =sum((Oi-Ei)^2/Ei)# grados de libertad para chi2 teoricok =length(Ei) # cantidad de clasesm =1#cantidad de parámetros calculadosgl = k -1- m # nivel de significancia para chi2 teoricoalpha =0.05# valor chi2 teoricochi2 =qchisq(alpha, df = gl, lower.tail =FALSE)# comparacion de los valores chi2cat(ifelse(chi20 <= chi2, "No se rechaza H0", "Se rechaza H0"))
No se rechaza H0
Ejemplo - distribución normal
En la siguiente tabla, se presenta una tabla de frecuencias de la duración (años) de 40 baterias de automovil.
Clases
Frecuencia observada (\(O_i\))
[1.45, 1.95)
2
[1.95, 2.45)
1
[2.45, 2.95)
4
[2.95, 3.45)
15
[3.45, 3.95)
10
[3.95, 4.45)
5
[4.45, 4.95]
3
Pruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías dadas se puede aproximar mediante una distribución normal ## Solución
Como se puede observar el histograma tiene una forma que aparenta ser normal, se probará esta hipótesis.
\(H_0\) : Los datos provienen de una distribución normal.
\(H_1\) : Los datos no provienen de una distribución normal.
Vemos que si \(X \sim N(\mu, \sigma^2)\), no conocemos los valores los parámetros \(\mu\) y \(\sigma^2\); por lo cual, debemos estimarlos. Para esto, recordemos que:
\[\mu = E(X) = \sum xp(X=x)\]
donde
\(x\): es la marca de clase de cada intervalo.
\(p(X=x)\): es la frecuencia relativa de la clase \(i\).
La desviación estandar es \(\sigma = \sqrt{\sigma^2} = \sqrt{0.44} = 0.66\). 0.0155Por lo anterior, \(X \sim N(\mu = 3.41, \sigma^2 = 0.44)\)
Solución - continuación
Calculemos los valores estandarizados de \(X\); esto es, \(Z\), para encontrar las probabilidades en la tabla. Recordando que, se sustituye el valor de \(x\) por los límites de clase comenzando con el límite superior del primer intervalo.
\[Z = \frac{x-\mu}{\sigma} = \frac{x-3.41}{0.66}\] Estandarizamos cada límite del intervalo y encontramos su probabilidad en la tabla normal.
\(L_i\)
\(L_s\)
\(Z_1\)
\(Z_2\)
\(p(Z_1 \leqslant Z \leqslant Z_2)\)
1.45
1.95
-2.8158
-2.0984
0.0155
1.95
2.45
-2.0984
-1.3810
0.0657
2.45
2.95
-1.3810
-0.6636
0.1698
2.95
3.45
-0.6636
0.0538
0.2679
3.45
3.95
0.0538
0.7712
0.2582
3.95
4.45
0.7712
1.4886
0.1519
4.45
4.95
1.4886
2.2060
0.0546
Solución - continuación
Completemos la tabla con los valores observados, esperados y las diferencias \(\chi^2\).
Intervalo
\(p(Z_1 \leqslant Z \leqslant Z_2)\)
Frecuencia observada \(O_i\)
Frecuencia esperada \(E_i\)
[1.45, 1.95)
0.0155
2
0.6200
[1.95, 2.45)
0.0657
1
2.6281
[2.45, 2.95)
0.1698
4
6.7933
[2.95, 3.45)
0.2679
15
10.7193
[3.45, 3.95)
0.2582
10
10.3302
[3.95, 4.45)
0.1519
5
6.0798
[4.45, 4.95]
0.0546
3
2.1840
Puesto que en valor esperado la última fila \(E_i =2.1840\) es menor que 5, entonces debemos sumar la última y penúltima fila.
Solución - continuación
Intervalo
\(p(Z_1\leqslant Z\leqslant Z_2)\)
Frecuencia observada \(O_i\)
Frecuencia esperada \(E_i\)
\(\frac{(O_i-E_i)^2}{E_i}\)
[1.45,1.95)
0.0155
2
0.6200
3.0716
[1.95,2.45)
0.0657
1
2.6281
1.0086
[2.45,2.95)
0.1698
4
6.7933
1.1485
[2.95,3.45)
0.2679
15
10.7193
1.7094
[3.45,3.95)
0.2582
10
10.3302
0.0105
[3.95,4.95]
0.2065
8
8.2639
0.0084
Total
6.9571
Solución - continuación
Los grados de libertad son \(k=k-1-m = 6-1-2=3\). El valor del estadístico es: