Verificación de la adecuación del modelo - Normalidad
En es importante examinar la idoneidad del modelo para los datos antes de usar, de manera práctica, el modelo. En este apartado del curso, se discutirán, métodos gráficos y formales para verificar la adecuación del modelo con respecto a los principales supuestos. Los principales supuestos a tener en cuenta son:
- Los errores están normalmente distribuidos.
- El término del error \(\epsilon\) tiene varianza \(\sigma^2\) constante.
- Los errores no están autocorrelacionados.
- La relación entre \(y\) y los regresores \(x_k\) es lineal, al menos, aproximadamente.
Si se cumple la normalidad y la no autoccorelación, implícitamente los errores son variables aleatorias independientes.
El estudio de los supuestos anteriores se realiza principalmente sobre los residuales del modelo.
Residuales
Los residuales \(e_i\) son definidos como la diferencia entre el valor observado de \(y_i\) y el valor ajustado o estimado \(\hat{y_i}\), como se muestra en la Ecuación 1.
\[\begin{align} e_i = y_i - \hat{y_i} \end{align} \tag{1}\]
Los residuales pueden ser visto como el error observado a diferencia del verdadero error \(\epsilon_i\) desconocido en el modelo de regresión (Ecuación 2).
\[\begin{align} \epsilon_i = y_i - E(y_i) \end{align} \tag{2}\]
Para el modelo de regresión lineal simple, Ecuación 3.
\[\begin{align} y_i = \beta_0 + \beta_1x_i + \epsilon_i \end{align} \tag{3}\]
Los términos del error \(\epsilon\) son asumidos como variables aleatorias normales independientes, con media \(0\) y varianza \(\sigma^2\) constante.
Si el modelo es adecuado para los datos en cuestión, los residuales observados \(e_i\) deberían reflejar las propiedades asumidas para \(\epsilon\);. Esta es la idea básica que subyace en el análisis residual, un medio muy útil para examinar la idoneidad de un modelo estadístico.
Propiedades de los residuales
Media
La media de los \(n\) residuales \(e_i\) para el modelo de regresión lineal simple, Ecuación 3, está dada en la Ecuación 4:
\[\begin{align} \bar{e} = \frac{\sum_{i=1}^n e_i}{n} =0 \end{align} \tag{4}\]
Como la media de los residuales \(e_i\) es siempre 0, no presenta ninguna información sobre si los errores verdaderos \(\epsilon_i\) tienen valor esperado $E[_i] =0 $
Varianza
La varianza para los \(n\) residuales \(e_i\) para el modelo de regresión lineal simple, Ecuación 3, es definida como sigue (Ecuación 5):
\[\begin{align} s^2 &= \frac{\sum_{i=n}^n (e_i - \bar{e})^2}{n-2} \\ \\ s^2 &= \frac{\sum_{i=n}^n e_i^2}{n-2} \\ \\ s^2 &= \frac{SSE}{n-2} \\ \\ s^2 &= MSE \end{align} \tag{5}\]
Residuales semiestudentizados
En ocasiones, resulta útil estandarizar los residuales para el análisis. Dado que la desviación típica de los términos de error \(\epsilon_i\); es \(\sigma\), que se estima por \(\sqrt{MSE}\), es natural considerar la siguiente forma de estandarización:
\[\begin{align} e_i^* &= \frac{e_i - \bar{e}}{\sqrt{MSE}} \\ \\ e_i^* &= \frac{e_i}{\sqrt{MSE}} \end{align} \tag{6}\]
\(e_i^*\) de la Ecuación 6 son llamados residuales estudentizados o semiestudentizados.
Verificación gráfica del supuesto de normalidad. Gráficos Cuantil - Cuantil.
Un procedimiento gráfico para verificar el supuesto de normalidad de los residuales \(e_i\) consiste en graficar los residuos versus una probabilidad acumulada o versus la normal inversa de la probabilidad acumulada. Para ello se siguen los siguientes pasos:
Es necesario poseer los cálculos de los \(n\) residuales \(e_{i}\).
Ordenar los \(n\) valores de los residuales en orden ascendente y asignarles en ese orden los valores de \(1~a~n\).Sean \(r_i\) con \(i=1,2,...,n\) los datos de los residuales \(e_i\) en orden creciente.
Calcular una posición de graficación para cada dato en función de su rango y del total de observaciones como:
\[\begin{align} p_i=\frac{i-0.5}{n}~,~i=1,2,...,n \end{align} \tag{7}\]
- Calcular la normal inversa \(Z_i\) de \(\frac{i-0.5}{n}~,~i=1,2,...,n\), es decir:
\[\begin{align} Z_i=\phi^{-1}\left(\frac{i-0.5}{n}\right) \end{align} \tag{8}\]
- Graficar en el eje de las abscisas los \(p_i\) o \(Z_i\) y en el eje de las ordenadas los \(r_i\).
Si los residuos siguen una distribución normal, al graficarlos tienden a quedar alineados en una línea recta; por lo tanto, si claramente no se alinean se concluye que el supuesto de normalidad no es correcto.
Cabe enfatizar el hecho de que el ajuste de los puntos a una recta no tiene que ser perfecto. No deberían existir desviaciones importantes a la línea recta para sospechar sobre el incumplimiento del supuesto de normalidad. En todo caso, siempre se recomienda realizar el proceso de verificaicón formal o analítico.
Verificación gráfica ejemplo Toluca Company
La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.
Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1
Observación \(i\) | \(x_i\): Tamaño de lote | \(y_i\): Horas de trabajo |
---|---|---|
1 | 80 | 399 |
2 | 30 | 121 |
3 | 50 | 221 |
4 | 90 | 376 |
5 | 70 | 361 |
6 | 60 | 224 |
7 | 120 | 546 |
8 | 80 | 352 |
9 | 100 | 353 |
10 | 50 | 157 |
11 | 40 | 160 |
12 | 70 | 252 |
13 | 90 | 389 |
14 | 20 | 113 |
15 | 110 | 435 |
16 | 100 | 420 |
17 | 30 | 212 |
18 | 50 | 268 |
19 | 90 | 377 |
20 | 110 | 421 |
21 | 30 | 273 |
22 | 90 | 468 |
23 | 40 | 244 |
24 | 80 | 342 |
25 | 70 | 323 |
Se realiza el cálculo de los ajustados \(\hat{y_i}\) y residuales \(e_i\), Tabla 2:
Observación \(i\) | \(\hat{y_i}\): Ajustados | \(e_i\): Residuales |
---|---|---|
1 | 347.9820 | 51.0179798 |
2 | 169.4719 | -48.4719192 |
3 | 240.8760 | -19.8759596 |
4 | 383.6840 | -7.6840404 |
5 | 312.2800 | 48.7200000 |
6 | 276.5780 | -52.5779798 |
7 | 490.7901 | 55.2098990 |
8 | 347.9820 | 4.0179798 |
9 | 419.3861 | -66.3860606 |
10 | 240.8760 | -83.8759596 |
11 | 205.1739 | -45.1739394 |
12 | 312.2800 | -60.2800000 |
13 | 383.6840 | 5.3159596 |
14 | 133.7699 | -20.7698990 |
15 | 455.0881 | -20.0880808 |
16 | 419.3861 | 0.6139394 |
17 | 169.4719 | 42.5280808 |
18 | 240.8760 | 27.1240404 |
19 | 383.6840 | -6.6840404 |
20 | 455.0881 | -34.0880808 |
21 | 169.4719 | 103.5280808 |
22 | 383.6840 | 84.3159596 |
23 | 205.1739 | 38.8260606 |
24 | 347.9820 | -5.9820202 |
25 | 312.2800 | 10.7200000 |
Se organizan los residuales \(e_i\) de manera ascendente, obteniendo los \(r_i\) residuales organizados, Tabla 3.
Observación \(i\) | \(e_i\): Residuales | \(r_i\): Residuales organizados |
---|---|---|
1 | 51.0179798 | -83.8759596 |
2 | -48.4719192 | -66.3860606 |
3 | -19.8759596 | -60.2800000 |
4 | -7.6840404 | -52.5779798 |
5 | 48.7200000 | -48.4719192 |
6 | -52.5779798 | -45.1739394 |
7 | 55.2098990 | -34.0880808 |
8 | 4.0179798 | -20.7698990 |
9 | -66.3860606 | -20.0880808 |
10 | -83.8759596 | -19.8759596 |
11 | -45.1739394 | -7.6840404 |
12 | -60.2800000 | -6.6840404 |
13 | 5.3159596 | -5.9820202 |
14 | -20.7698990 | 0.6139394 |
15 | -20.0880808 | 4.0179798 |
16 | 0.6139394 | 5.3159596 |
17 | 42.5280808 | 10.7200000 |
18 | 27.1240404 | 27.1240404 |
19 | -6.6840404 | 38.8260606 |
20 | -34.0880808 | 42.5280808 |
21 | 103.5280808 | 48.7200000 |
22 | 84.3159596 | 51.0179798 |
23 | 38.8260606 | 55.2098990 |
24 | -5.9820202 | 84.3159596 |
25 | 10.7200000 | 103.5280808 |
Se calcula \(p_i\), Tabla 4.
Observación \(i\) | \(p_i\) |
---|---|
1 | 0.02 |
2 | 0.06 |
3 | 0.10 |
4 | 0.14 |
5 | 0.18 |
6 | 0.22 |
7 | 0.26 |
8 | 0.30 |
9 | 0.34 |
10 | 0.38 |
11 | 0.42 |
12 | 0.46 |
13 | 0.50 |
14 | 0.54 |
15 | 0.58 |
16 | 0.62 |
17 | 0.66 |
18 | 0.70 |
19 | 0.74 |
20 | 0.78 |
21 | 0.82 |
22 | 0.86 |
23 | 0.90 |
24 | 0.94 |
25 | 0.98 |
Se calcula \(Z_i=\phi^{-1}\left(\frac{i-0.5}{n}\right)\) ,Tabla 5.
Observación \(i\) | \(r_i\): Residuales organizados | \(p_i\) | \(Z_i\) |
---|---|---|---|
1 | -83.8759596 | 0.02 | -2.0537489 |
2 | -66.3860606 | 0.06 | -1.5547736 |
3 | -60.2800000 | 0.10 | -1.2815516 |
4 | -52.5779798 | 0.14 | -1.0803193 |
5 | -48.4719192 | 0.18 | -0.9153651 |
6 | -45.1739394 | 0.22 | -0.7721932 |
7 | -34.0880808 | 0.26 | -0.6433454 |
8 | -20.7698990 | 0.30 | -0.5244005 |
9 | -20.0880808 | 0.34 | -0.4124631 |
10 | -19.8759596 | 0.38 | -0.3054808 |
11 | -7.6840404 | 0.42 | -0.2018935 |
12 | -6.6840404 | 0.46 | -0.1004337 |
13 | -5.9820202 | 0.50 | 0.0000000 |
14 | 0.6139394 | 0.54 | 0.1004337 |
15 | 4.0179798 | 0.58 | 0.2018935 |
16 | 5.3159596 | 0.62 | 0.3054808 |
17 | 10.7200000 | 0.66 | 0.4124631 |
18 | 27.1240404 | 0.70 | 0.5244005 |
19 | 38.8260606 | 0.74 | 0.6433454 |
20 | 42.5280808 | 0.78 | 0.7721932 |
21 | 48.7200000 | 0.82 | 0.9153651 |
22 | 51.0179798 | 0.86 | 1.0803193 |
23 | 55.2098990 | 0.90 | 1.2815516 |
24 | 84.3159596 | 0.94 | 1.5547736 |
25 | 103.5280808 | 0.98 | 2.0537489 |
Se realiza gráfico de dispersión \(Z_i\) vs \(r_i\), Figura 1
Verificación formal - analítica supuesto de normalidad mediante Test Kolmogorov-Smirnov
Consideremos una muestra aleatoria de datos \(x_1,x_2,...x_n\) que procede de cierta función desconocida denotada \(F(x)\). Se quiere verificar si dichos datos fueron generados por un proceso normal, mediante las hipótesis estadísticas.
- Planteamiento de hipótesis
\[\begin{align} H_o&: e_{i}\sim N(\mu,\sigma^2)\\H_1&: e_{i} \nsim N(\mu,\sigma^2) \\ \forall ~i&=1,2,...,n \end{align} \tag{9}\]
- Organización de los residuales \(e_{i}\) de manera ascendente, denotando los datos ordenados como:
\[\begin{align} r_i=x_{(1)},x_{(2)},...,x_{(n)},~con~i=1,2,3...n \end{align} \tag{10}\]
- Calculos probabilidad teórica (percentil) \(P_i\) de la forma:
\[\begin{align} P_i=\frac{i}{n},~ \forall ~i&=1,2,...,n \end{align} \tag{11}\]
- Estandarización los residuales organizados \(r_i\) de la siguiente manera:
\[\begin{align} Z_i=\frac{x_i-\bar{x}}{S(x_i)},~ \forall ~i&=1,2,...,n \end{align} \tag{12}\]
- \(\bar{x}\) corresponde a la media muestra para los \(r_i\).
- \(S(x_i)\) es la desviación estándar de la muestra de \(r_i\).
- Calculo de la probabilidad \(P(Z_i)\) para una distribución normal estándar.
\[\begin{align} P(Z_i)=\phi \left[\frac{x_i-\bar{x}}{S(x_i)} \right], ~ \forall ~i&=1,2,...,n \end{align} \tag{13}\]
- Calculo de distancias \(D_1\) y \(D_2\):
- Distancia 1 \(D_1\).
\[\begin{align} D_1=|P(Z_i)-P_i|, ~ \forall ~i&=1,2,...,n \end{align} \tag{14}\]
- Distancia 2 \(D_2\).
\[\begin{align} D_2=|P(Z_i)-P_{i-1}|,~ \forall ~i&=1,2,...,n \end{align} \tag{15}\]
- Escojo el valor para el estadístico de prueba \(D\)
\[\begin{align} D=max\left\lbrace D_1,D_2 \right\rbrace \end{align} \tag{16}\]
- Comparamos el estadístico de prueba \(D\) con el estadístico teórico \(KS\)
\[\begin{align} KS=\frac{C_\alpha}{K(n)} \end{align} \tag{17}\]
\(C_\alpha\) viene dado por tablas de la siguiente manera (Tabla 6).
\(C_{\alpha}\) por distribución | \(\alpha=0.1\) | \(\alpha=0.05\) | \(\alpha=0.01\) |
---|---|---|---|
Normal | 0.819 | 0.895 | 1.035 |
Exponencial | 0.990 | 1.094 | 1.308 |
Weibull | 0.760 | 0.819 | 0.944 |
El valor de \(K(n)\) también se encuentra tabulado, y lo encontramos de la siguiente forma (Tabla 7):
\(K(n)\) por distribución | \(K(n)\) |
---|---|
Normal | \(\sqrt{n}-0.01+\frac{0.85}{\sqrt{n}}\) |
Exponencial | \(\sqrt{n}+0.12+\frac{0.11}{\sqrt{n}}\) |
Weibull | \(\sqrt{n}\) |
\[Si~D>KS \rightarrow Rechazo~H_o\]
Verificación formal en R con Test Kolmogorov-Smirnov ejemplo Toluca Company.
La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.
Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1.
#Datos
<- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
tamano <- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)
horas
#Modelo
<- lm(horas~tamano)
modelo
#Residuales
<- modelo$residuals
residuales
# Test Kolmogorov - Smirnov
library(nortest)
lillie.test(residuales)
Lilliefors (Kolmogorov-Smirnov) normality test
data: residuales
D = 0.09572, p-value = 0.8027
Del procedimiento en R se obtiene que:
\[\begin{align} D = 0.09572 \end{align}\]
Tomando la Ecuación 17, los datos de la Tabla 6 y Tabla 7, para un nivel de significancia \(\alpha=0.05\) y \(n=25\) se obtiene que:
\[\begin{align} KS = \frac{0.895}{\sqrt{25}-0.01+\frac{0.85}{\sqrt{25}}} = 0.1734496 \end{align}\]
Por lo que se puede concluir que;
\[\begin{align} D = 0.09572 \ngtr KS= 0.1734496 \end{align}\]
No existe suficiente evidencia estadística para rechazar \(H_0\), los residuales \(e_i,~ i=1,2,...,25\) provienen de una distribución normal. Se cumple supuesto de normalidad.