Estadística Inferencial

Clase 4.2
Pruebas de bondad de ajuste

Msc. Roberto Trespalacios

Universidad Tecnológica de Bolivar

2024-01-29

Tabla de contenido

  • Pruebas de bondad de ajuste
  • Contrastes no paramétricos: bondad de ajuste
  • Contrastes \(\chi^2\) de bondad de ajuste
    • Ejemplos
    • Ejercicios

Pruebas de bondad de ajuste

Introducción

Suponemos una muestra aleatoria simple \((X_1, X_2,\dots, X_n)\) de una población desconocida.

El problema de bondad de ajuste consiste en resolver contrastes del tipo:

Es decir:

\[ \left \{ \begin{array}{l} H_0:F=F_0\\ H_1:F\neq F_0\end{array} \right. \]

donde \(F\), es la distribución de la muestra aleatoria y \(F_0\) es una distribución teórica conocida, que puede ser: Uniforme, Poison, Normal,…, etc.

El problema de contrastar la bondad de ajuste es no paramétrico en el sentido de que no se trata de decidir entre distribuciones \(F_{\theta}\) que sólo difieren en el valor de \(\theta\).

Contrastes no paramétricos: bondad de ajuste

Para resolver un problema de bondad de ajuste cabe distinguir principalmente dos métodos:

  • Contrastes \(\chi^2\): Se descompone el recorrido de la distribución teórica en un número finito de subconjuntos o clases \(C_1, C_2,\dots, C_k\). Luego, se clasifican las observaciones según el subconjunto al que pertenezcan. Por último, se comparan las frecuencias observadas de cada \(C_i\) con las probabilidades teóricas correspondientes.

  • Contrastes de Kolmogorov-Smirnov: Consisten en comparar la distribución empírica con la teórica planteada en la hipótesis nula. Midiendo las distancias entre distribuciones puede saberse si la diferencia es importante o poco significativa.

Contrastes \(\chi^2\) de bondad de ajuste

Consideramos una variable aleatoria, \(X\), con distribución desconocida \(F\), de la que disponemos de una muestra aleatoria simple, \((X_1, X_2,\dots, X_n)\). Queremos contrastar si la muestra procede de una distribución \(F_0\), conocida:

\[ \left \{ \begin{array}{l} H_0:F=F_0\\ H_1:F\neq F_0\end{array} \right. \]

Dividimos el recorrido de \(X\) en \(k\) clases, \(C_1, C_2,\dots, C_k\) y llamamos:

  • \(O_i=\) “Número de datos observados en \(C_i\)
  • \(E_i =\) “Número de datos esperados en \(C_i\), si no se rechaza \(H_0\)

para \(i = 1,2, \dots, k\), donde \(E_i = np_{i_0}\) y \(p_{i_0}\) es la probabilidad de pertenecer a \(C_i\) si la distribución de la hipótesis nula es la verdadera.

Contrastes \(\chi^2\) de bondad de ajuste

Pearson propuso el siguiente estadístico de contraste

\[ \chi^2=\sum_{i=1}^{k}\frac{(O_{i}-E_{i})^2}{E_{i}}\underset{aprox.}{\sim }\chi_{k-1}^2, \text{ no se rechaza }H_0 \]

Este, proporciona una medida de discrepancia entre el número de observaciones en cada conjunto, \(C_i\), y el número que cabría esperar según \(F_0\), ponderadas por \(1/E_i\).

Ejemplo:

No parece lógico dar la misma importancia a una diferencia de 2 cuando se esperan 20 observaciones que cuando se esperan 5.

Contrastes \(\chi^2\) de bondad de ajuste

Observar que de este modo el contraste no paramétrico inicial se ha reducido al siguiente contraste paramétrico relativo a proporciones:

  • \(H_0 : p_i = p_{i_0}\), para todo \(i = 1,2,\dots, n\).
  • \(H_1 : p_i \neq p_{i_0}\) para algún \(i = 1,2,\dots, n\).

donde \(p_i\) es la probabilidad verdadera (y desconocida) de pertenecer a la clase \(C_i\).

La región de rechazo del contraste es \(\chi^2_0 \geqslant \chi^2_{\alpha}\):

\[ \chi^2_0 = \sum_{i=1}^{k}\frac{(O_{i}-E_{i})^2}{E_{i}}\geq \chi_{\alpha, k-1-m}^2 \]

donde

  • \(\alpha\) es el nivel de significancia
  • \(k-1-m\): son los grados de libertad. (\(k\): número de filas y \(m\): número de parámetros estimados.)

Ejemplo 1 - distribución uniforme

El gerente de una planta industrial pretende determinar si el número de empleados que asisten al consultorio médico de la planta se encuentran distribuido en forma equitativa durante los 5 días de trabajo de la semana. Con base en una muestra aleatoria de 4 semanas completas de trabajo, se observó el siguiente número de consultas:

Lunes Martes Miércoles Jueves Viernes
49 35 32 39 45

Con \(\alpha = 0.05\), ¿existe alguna razón para creer que el número de empleados que asisten al consultorio médico, no se encuentra distribuido de forma equitativa durante los días de la semana?

Solución

Una distribución uniforme lleva consigo que la probabilidad sería la misma para cada día de la semana. Por tanto \(p_i=0.2\) para \(i = 1, 2, 3, 4, 5\).

Las hipótesis nula y alterna son:

  • \(H_0 : p_i = 0.2\), para todo \(i = 1, 2,..., 5\).
  • \(H_1 : p_i \neq 0, .2\) para algún \(i = 1, 2,..., 5\).

Dado que \(n=200\), la frecuencia esperada para cada día de la semana es \(200\times 0.2=40\).

Solución - continuación

Se genera la tabla de las frecuencias esperadas y observadas.

Días Frecuencias Obs. (\(O_i\)) Frecuencias Teóricas (\(E_i\)) \(\frac{(O_i-E_i)^2}{E_i}\)
Lunes 49 40 2.025
Martes 35 40 0.625
Miércoles 32 40 1.600
Jueves 39 40 0.025
Viernes 45 40 0.625
Suma 4.900

Solución - continuación

Por lo tanto, el valor del estadístico es:

\[\chi^2_0 = \sum_{i=1}^{k}\frac{(O_{i}-E_{i})^2}{E_{i}} = 4.90 < 9.48 = \chi_{(0.05, 5-1)}^2\]

No se rechazarsa la hipótesis nula \(H_0\), por lo tanto los empleados están “bien” distribuidos(uniformemente) de forma equitativa durante los días de la semana.

Solución en R

Code
# frecuencia observada
Oi = c(49, 35, 32, 39, 45)
n = sum(Oi)

# estimación de parametros
# no tiene

# Probibilidad
# como todos los dias tienen el mismo peso, entonces es una distribución uniforme
pi = c(1/5,1/5,1/5,1/5,1/5)

# frecuencia esperada
Ei = pi*n

while(Ei[length(Ei)] < 5){
  Ei[length(Ei)-1] = Ei[length(Ei)] + Ei[length(Ei)-1]
  Ei = Ei[-length(Ei)]
}

# chi2 calculado
chi20 = sum((Oi-Ei)^2/Ei)

# grados de libertad para chi2 teorico
k = length(Ei) # cantidad de clases
m = 0 #cantidad de parámetros calculados
gl = k - 1 - m 

# nivel de significancia para chi2 teorico
alpha = 0.05

# valor chi2 teorico
chi2 = qchisq(alpha, df = gl, lower.tail = FALSE)

# comparacion de los valores chi2
cat(ifelse(chi20 <= chi2, "No se rechaza H0", "Se rechaza H0"))
No se rechaza H0

Ejemplo 2 - distribución de Poisson

Se propone que el número de defectos en las tarjetas de circuito impreso sigue una distribución Poisson. Se reúne una muestra aleatoria de 60 tarjetas de circuito impreso y se observa el número de defectos. Los resultados obtenidos son los siguientes:

Número de defectos Frecuencia observada (\(O_i\))
0 32
1 15
2 9
3 ó más 4

¿Muestran estos datos suficiente evidencia para decir que provienen de una distribución Poisson?. Haga la prueba de la bondad del ajuste con un \(\alpha= 0.05\).

Solución

Las hipótesis del problema son:

  • \(H_0\) : La forma de la distribución de los defectos es Poisson.
  • \(H_1\) : La forma de la distribución de los defectos no es Poisson.

Estimación de la media (\(\lambda\))

El parámetro de la media de la distribución Poisson, propuesta en este ejemplo es desconocida y por lo tanto, debemos estimarlo a partir de los datos contenidos en la muestra. Es decir,

\[\bar{\lambda}=\frac{0\cdot 32 + 1\cdot 15+2\cdot 9+3 \cdot 4}{60} = 0.75\]

Cálculo de las probabilidades

Ahora, debemos calcular los valores de las probabilidades para cada \(x=0,1,2,3\), es decir,

\[ p(X=x)= \frac{e^{-\lambda}\lambda^x}{x!} = \frac{e^{-0.75}0.75^x}{x!} \]

Solución - continuación

Si calculamos para cada \(x\), encontramos elvalor esperado, multiplicando la probabilidad por 60. Tenemos la siguiente tabla:

Número de defectos Probabilidad Frecuencia observada \(O_i\) Frecuencia esperada \(E_i\)
0 0.472 32 28.32
1 0.354 15 21.24
2 0.133 9 7.98
3 ó más 0.041 4 2.46

Observación

Puesto que la frecuencia esperada en la última celda es 2.46 < 5, entonces, se combinan las dos últimas celdas.

Solución - continuación

Número de defectos Frecuencia obs. \(O_i\) Frecuencia esperada \(E_i\) \(\frac{(O_i-E_i)^2}{E_i}\)
0 32 28.32 0.478
1 15 21.24 1.833
2 ó más 13 10.44 0.628
Total 2.94

Los grados de libertad son \(k=k-1-m = 3-1-1=1\). El valor del estadístico es:

\[\chi^2_0 = \sum_{i=1}^{k}\frac{(O_{i}-E_{i})^2}{E_{i}} = 2.94 < 3.84 = \chi_{(0.05, 1)}^2\]

No se rechazarsa la hipótesis nula \(H_0\), por lo tanto, el número de defectos en las tarjetas de circuito impreso, provienen de una distribución de Poisson.

Solución en R

Code
# frecuencia observada
x = 0:3
Oi = c(32, 15, 9, 4)
n = sum(Oi)

# estimación de parametros
# lambda

lambda = sum(x*Oi)/n

# Probibilidad estimada
# useamos la funcion de densidad
pi = c(dpois(0:2, lambda = lambda), 1-ppois(2, lambda = lambda))

# frecuencia esperada
Ei = pi*n

while(Ei[length(Ei)] < 5){
  Ei[length(Ei)-1] = Ei[length(Ei)] + Ei[length(Ei)-1]
  Oi[length(Oi)-1] = Oi[length(Oi)] + Oi[length(Oi)-1]
  Ei = Ei[-length(Ei)]
  Oi = Oi[-length(Oi)]
}

# chi2 calculado
chi20 = sum((Oi-Ei)^2/Ei)

# grados de libertad para chi2 teorico
k = length(Ei) # cantidad de clases
m = 1 #cantidad de parámetros calculados
gl = k - 1 - m 

# nivel de significancia para chi2 teorico
alpha = 0.05

# valor chi2 teorico
chi2 = qchisq(alpha, df = gl, lower.tail = FALSE)

# comparacion de los valores chi2
cat(ifelse(chi20 <= chi2, "No se rechaza H0", "Se rechaza H0"))
No se rechaza H0

Ejemplo - distribución normal

En la siguiente tabla, se presenta una tabla de frecuencias de la duración (años) de 40 baterias de automovil.

Clases Frecuencia observada (\(O_i\))
[1.45, 1.95) 2
[1.95, 2.45) 1
[2.45, 2.95) 4
[2.95, 3.45) 15
[3.45, 3.95) 10
[3.95, 4.45) 5
[4.45, 4.95] 3

Pruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías dadas se puede aproximar mediante una distribución normal ## Solución

Como se puede observar el histograma tiene una forma que aparenta ser normal, se probará esta hipótesis.

  • \(H_0\) : Los datos provienen de una distribución normal.
  • \(H_1\) : Los datos no provienen de una distribución normal.

Vemos que si \(X \sim N(\mu, \sigma^2)\), no conocemos los valores los parámetros \(\mu\) y \(\sigma^2\); por lo cual, debemos estimarlos. Para esto, recordemos que:

\[\mu = E(X) = \sum xp(X=x)\]

donde

  • \(x\): es la marca de clase de cada intervalo.
  • \(p(X=x)\): es la frecuencia relativa de la clase \(i\).

Solución - continuación

Por lo anterior,

\[ \begin{align*} \mu = E(X) = &\sum xp(X=x) \\ = & 1.7\cdot 0.050 + 2.2\cdot 0.025 +\cdots+ 4.2 \cdot 0.125 + 4.7\cdot 0.075 \\ =& 3.41 \end{align*} \]

Calculemos la varianza para luego encontrar la desviación estandar.

\[ \begin{align*} \sigma^2 = Var(X) = &\sum (x - \mu)^2p(X=x) \\ = & 0.14 + 0.03 + 0.05 + 0.01 + 0.02+ 0.07+ 0.12 \\ = & 0.44 \end{align*} \]

La desviación estandar es \(\sigma = \sqrt{\sigma^2} = \sqrt{0.44} = 0.66\). 0.0155Por lo anterior, \(X \sim N(\mu = 3.41, \sigma^2 = 0.44)\)

Solución - continuación

Calculemos los valores estandarizados de \(X\); esto es, \(Z\), para encontrar las probabilidades en la tabla. Recordando que, se sustituye el valor de \(x\) por los límites de clase comenzando con el límite superior del primer intervalo.

\[Z = \frac{x-\mu}{\sigma} = \frac{x-3.41}{0.66}\] Estandarizamos cada límite del intervalo y encontramos su probabilidad en la tabla normal.

\(L_i\) \(L_s\) \(Z_1\) \(Z_2\) \(p(Z_1 \leqslant Z \leqslant Z_2)\)
1.45 1.95 -2.8158 -2.0984 0.0155
1.95 2.45 -2.0984 -1.3810 0.0657
2.45 2.95 -1.3810 -0.6636 0.1698
2.95 3.45 -0.6636 0.0538 0.2679
3.45 3.95 0.0538 0.7712 0.2582
3.95 4.45 0.7712 1.4886 0.1519
4.45 4.95 1.4886 2.2060 0.0546

Solución - continuación

Completemos la tabla con los valores observados, esperados y las diferencias \(\chi^2\).

Intervalo \(p(Z_1 \leqslant Z \leqslant Z_2)\) Frecuencia observada \(O_i\) Frecuencia esperada \(E_i\)
[1.45, 1.95) 0.0155 2 0.6200
[1.95, 2.45) 0.0657 1 2.6281
[2.45, 2.95) 0.1698 4 6.7933
[2.95, 3.45) 0.2679 15 10.7193
[3.45, 3.95) 0.2582 10 10.3302
[3.95, 4.45) 0.1519 5 6.0798
[4.45, 4.95] 0.0546 3 2.1840

Puesto que en valor esperado la última fila \(E_i =2.1840\) es menor que 5, entonces debemos sumar la última y penúltima fila.

Solución - continuación

Intervalo \(p(Z_1\leqslant Z\leqslant Z_2)\) Frecuencia observada \(O_i\) Frecuencia esperada \(E_i\) \(\frac{(O_i-E_i)^2}{E_i}\)
[1.45,1.95) 0.0155 2 0.6200 3.0716
[1.95,2.45) 0.0657 1 2.6281 1.0086
[2.45,2.95) 0.1698 4 6.7933 1.1485
[2.95,3.45) 0.2679 15 10.7193 1.7094
[3.45,3.95) 0.2582 10 10.3302 0.0105
[3.95,4.95] 0.2065 8 8.2639 0.0084
Total 6.9571

Solución - continuación

Los grados de libertad son \(k=k-1-m = 6-1-2=3\). El valor del estadístico es:

\[\chi^2_0 = \sum_{i=1}^{k}\frac{(O_{i}-E_{i})^2}{E_{i}} = 6.95 < 7.81 = \chi_{(0.05, 3)}^2\]

No se rechazarsa la hipótesis nula \(H_0\), por lo tanto, el tiempo de duración de las baterias, provienen de una distribución normal.

Solución en R

Code
# frecuencia observada
Li = c(1.45,1.95,2.45,2.95,3.45,3.95,4.45)
Ls = c(1.95,2.45,2.95,3.45,3.95,4.45,4.95)

x = (Li+Ls)/2

Oi = c(2, 1, 4, 15,10, 5, 3)
n = sum(Oi)

# estimación de parametros
# mu y sigma2
mu = sum(x*Oi)/n
sigma2 = sum((x-mu)^2*Oi/(n-1))
sigma = sqrt(sigma2)

# Probibilidad estimada
# debemos estandrizar la variabvle 
# y luego calcular las probabilidades

z1 = (Li-mu)/sigma 
z2 = (Ls-mu)/sigma

pi = pnorm(z2, 0, 1) - pnorm(z1, 0, 1)

# frecuencia esperada
Ei = pi*n

while(Ei[length(Ei)] < 5){
  Ei[length(Ei)-1] = Ei[length(Ei)] + Ei[length(Ei)-1]
  Oi[length(Oi)-1] = Oi[length(Oi)] + Oi[length(Oi)-1]
  Ei = Ei[-length(Ei)]
  Oi = Oi[-length(Oi)]
}

# chi2 calculado
chi20 = sum((Oi-Ei)^2/Ei)

# grados de libertad para chi2 teorico
k = length(Ei) # cantidad de clases
m = 2 #cantidad de parámetros calculados
gl = k - 1 - m 

# nivel de significancia para chi2 teorico
alpha = 0.05

# valor chi2 teorico
chi2 = qchisq(alpha, df = gl, lower.tail = FALSE)

# comparacion de los valores chi2
cat(ifelse(chi20 <= chi2, "No se rechaza H0", "Se rechaza H0"))
No se rechaza H0

Ejercicios del taller