Verificación de la adecuación del modelo

Residuales

Los residuales $e_i$ son definidos como la diferencia entre el valor observado de $y_i$ y el valor ajustado o estimado $\hat{y_i}$, como se muestra en la Ecuación 1.

\[\begin{align} e_i = y_i - \hat{y_i} \end{align} \tag{1}\]

Los residuales pueden ser visto como el error observado a diferencia del verdadero error $\epsilon_i$ desconocido en el modelo de regresión (Ecuación 2).

\[\begin{align} \epsilon_i = y_i - E(y_i) \end{align} \tag{2}\]

Para el modelo de regresión lineal simple, Ecuación 3.

\[\begin{align} y_i = \beta_0 + \beta_1x_i + \epsilon_i \end{align} \tag{3}\]

Los términos del error $\epsilon$ son asumidos como variables aleatorias normales independientes, con media $0$ y varianza $\sigma^2$ constante.

Si el modelo es adecuado para los datos en cuestión, los residuales observados $e_i$ deberían reflejar las propiedades asumidas para $\epsilon$;. Esta es la idea básica que subyace en el análisis residual, un medio muy útil para examinar la idoneidad de un modelo estadístico.

Propiedades de los residuales

Media

La media de los $n$ residuales $e_i$ para el modelo de regresión lineal simple, Ecuación 3, está dada en la Ecuación 4:

\[\begin{align} \bar{e} = \frac{\sum_{i=1}^n e_i}{n} =0 \end{align} \tag{4}\]

Como la media de los residuales $e_i$ es siempre 0, no presenta ninguna información sobre si los errores verdaderos $\epsilon_i$ tienen valor esperado $E[_i] =0 $

Varianza

La varianza para los $n$ residuales $e_i$ para el modelo de regresión lineal simple, Ecuación 3, es definida como sigue (Ecuación 5):

\[\begin{align} s^2 &= \frac{\sum_{i=n}^n (e_i - \bar{e})^2}{n-2} \\ \\ s^2 &= \frac{\sum_{i=n}^n e_i^2}{n-2} \\ \\ s^2 &= \frac{SSE}{n-2} \\ \\ s^2 &= MSE \end{align} \tag{5}\]

Residuales semiestudentizados

En ocasiones, resulta útil estandarizar los residuales para el análisis. Dado que la desviación típica de los términos de error $\epsilon_i$; es $\sigma$, que se estima por $\sqrt{MSE}$, es natural considerar la siguiente forma de estandarización:

\[\begin{align} e_i^* &= \frac{e_i - \bar{e}}{\sqrt{MSE}} \\ \\ e_i^* &= \frac{e_i}{\sqrt{MSE}} \end{align} \tag{6}\]

$e_i^*$ de la Ecuación 6 son llamados residuales estudentizados o semiestudentizados.

Verificación gráfica del supuesto de normalidad. Gráficos Cuantil - Cuantil.

Un procedimiento gráfico para verificar el supuesto de normalidad de los residuales $e_i$ consiste en graficar los residuos versus una probabilidad acumulada o versus la normal inversa de la probabilidad acumulada. Para ello se siguen los siguientes pasos:

Es necesario poseer los cálculos de los $n$ residuales $e_{i}$.
Ordenar los $n$ valores de los residuales en orden ascendente y asignarles en ese orden los valores de $1~a~n$.Sean $r_i$ con $i=1,2,...,n$ los datos de los residuales $e_i$ en orden creciente.
Calcular una posición de graficación para cada dato en función de su rango y del total de observaciones como:

\[\begin{align} p_i=\frac{i-0.5}{n}~,~i=1,2,...,n \end{align} \tag{7}\]

Calcular la normal inversa $Z_i$ de $\frac{i-0.5}{n}~,~i=1,2,...,n$, es decir:

\[\begin{align} Z_i=\phi^{-1}\left(\frac{i-0.5}{n}\right) \end{align} \tag{8}\]

Graficar en el eje de las abscisas los $p_i$ o $Z_i$ y en el eje de las ordenadas los $r_i$.

Si los residuos siguen una distribución normal, al graficarlos tienden a quedar alineados en una línea recta; por lo tanto, si claramente no se alinean se concluye que el supuesto de normalidad no es correcto.

Cabe enfatizar el hecho de que el ajuste de los puntos a una recta no tiene que ser perfecto. No deberían existir desviaciones importantes a la línea recta para sospechar sobre el incumplimiento del supuesto de normalidad. En todo caso, siempre se recomienda realizar el proceso de verificaicón formal o analítico.

Verificación gráfica ejemplo Toluca Company

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1

Tabla 1: Ejemplo Toluca Company.

Observación $i$	$x_i$: Tamaño de lote	$y_i$: Horas de trabajo
1	80	399
2	30	121
3	50	221
4	90	376
5	70	361
6	60	224
7	120	546
8	80	352
9	100	353
10	50	157
11	40	160
12	70	252
13	90	389
14	20	113
15	110	435
16	100	420
17	30	212
18	50	268
19	90	377
20	110	421
21	30	273
22	90	468
23	40	244
24	80	342
25	70	323

Se realiza el cálculo de los ajustados $\hat{y_i}$ y residuales $e_i$, Tabla 2:

Tabla 2: Cálculo de residuales.

Observación $i$	$\hat{y_i}$: Ajustados	$e_i$: Residuales
1	347.9820	51.0179798
2	169.4719	-48.4719192
3	240.8760	-19.8759596
4	383.6840	-7.6840404
5	312.2800	48.7200000
6	276.5780	-52.5779798
7	490.7901	55.2098990
8	347.9820	4.0179798
9	419.3861	-66.3860606
10	240.8760	-83.8759596
11	205.1739	-45.1739394
12	312.2800	-60.2800000
13	383.6840	5.3159596
14	133.7699	-20.7698990
15	455.0881	-20.0880808
16	419.3861	0.6139394
17	169.4719	42.5280808
18	240.8760	27.1240404
19	383.6840	-6.6840404
20	455.0881	-34.0880808
21	169.4719	103.5280808
22	383.6840	84.3159596
23	205.1739	38.8260606
24	347.9820	-5.9820202
25	312.2800	10.7200000

Se organizan los residuales $e_i$ de manera ascendente, obteniendo los $r_i$ residuales organizados, Tabla 3.

Tabla 3: Residuales organizados.

Observación $i$	$e_i$: Residuales	$r_i$: Residuales organizados
1	51.0179798	-83.8759596
2	-48.4719192	-66.3860606
3	-19.8759596	-60.2800000
4	-7.6840404	-52.5779798
5	48.7200000	-48.4719192
6	-52.5779798	-45.1739394
7	55.2098990	-34.0880808
8	4.0179798	-20.7698990
9	-66.3860606	-20.0880808
10	-83.8759596	-19.8759596
11	-45.1739394	-7.6840404
12	-60.2800000	-6.6840404
13	5.3159596	-5.9820202
14	-20.7698990	0.6139394
15	-20.0880808	4.0179798
16	0.6139394	5.3159596
17	42.5280808	10.7200000
18	27.1240404	27.1240404
19	-6.6840404	38.8260606
20	-34.0880808	42.5280808
21	103.5280808	48.7200000
22	84.3159596	51.0179798
23	38.8260606	55.2098990
24	-5.9820202	84.3159596
25	10.7200000	103.5280808

Se calcula $p_i$, Tabla 4.

Tabla 4: Posición teórica

Observación $i$	$p_i$
1	0.02
2	0.06
3	0.10
4	0.14
5	0.18
6	0.22
7	0.26
8	0.30
9	0.34
10	0.38
11	0.42
12	0.46
13	0.50
14	0.54
15	0.58
16	0.62
17	0.66
18	0.70
19	0.74
20	0.78
21	0.82
22	0.86
23	0.90
24	0.94
25	0.98

Se calcula $Z_i=\phi^{-1}\left(\frac{i-0.5}{n}\right)$ ,Tabla 5.

Tabla 5: Normal inversa.

Observación $i$	$r_i$: Residuales organizados	$p_i$	$Z_i$
1	-83.8759596	0.02	-2.0537489
2	-66.3860606	0.06	-1.5547736
3	-60.2800000	0.10	-1.2815516
4	-52.5779798	0.14	-1.0803193
5	-48.4719192	0.18	-0.9153651
6	-45.1739394	0.22	-0.7721932
7	-34.0880808	0.26	-0.6433454
8	-20.7698990	0.30	-0.5244005
9	-20.0880808	0.34	-0.4124631
10	-19.8759596	0.38	-0.3054808
11	-7.6840404	0.42	-0.2018935
12	-6.6840404	0.46	-0.1004337
13	-5.9820202	0.50	0.0000000
14	0.6139394	0.54	0.1004337
15	4.0179798	0.58	0.2018935
16	5.3159596	0.62	0.3054808
17	10.7200000	0.66	0.4124631
18	27.1240404	0.70	0.5244005
19	38.8260606	0.74	0.6433454
20	42.5280808	0.78	0.7721932
21	48.7200000	0.82	0.9153651
22	51.0179798	0.86	1.0803193
23	55.2098990	0.90	1.2815516
24	84.3159596	0.94	1.5547736
25	103.5280808	0.98	2.0537489

Se realiza gráfico de dispersión $Z_i$ vs $r_i$, Figura 1

Figura 1: Gráfico Cuantil - Cuantil (QQPLOT)

Verificación formal - analítica supuesto de normalidad mediante Test Kolmogorov-Smirnov

Consideremos una muestra aleatoria de datos $x_1,x_2,...x_n$ que procede de cierta función desconocida denotada $F(x)$. Se quiere verificar si dichos datos fueron generados por un proceso normal, mediante las hipótesis estadísticas.

Planteamiento de hipótesis

\[\begin{align} H_o&: e_{i}\sim N(\mu,\sigma^2)\\H_1&: e_{i} \nsim N(\mu,\sigma^2) \\ \forall ~i&=1,2,...,n \end{align} \tag{9}\]

Organización de los residuales $e_{i}$ de manera ascendente, denotando los datos ordenados como:

\[\begin{align} r_i=x_{(1)},x_{(2)},...,x_{(n)},~con~i=1,2,3...n \end{align} \tag{10}\]

Calculos probabilidad teórica (percentil) $P_i$ de la forma:

\[\begin{align} P_i=\frac{i}{n},~ \forall ~i&=1,2,...,n \end{align} \tag{11}\]

Estandarización los residuales organizados $r_i$ de la siguiente manera:

\[\begin{align} Z_i=\frac{x_i-\bar{x}}{S(x_i)},~ \forall ~i&=1,2,...,n \end{align} \tag{12}\]

$\bar{x}$ corresponde a la media muestra para los $r_i$.
$S(x_i)$ es la desviación estándar de la muestra de $r_i$.

Calculo de la probabilidad $P(Z_i)$ para una distribución normal estándar.

\[\begin{align} P(Z_i)=\phi \left[\frac{x_i-\bar{x}}{S(x_i)} \right], ~ \forall ~i&=1,2,...,n \end{align} \tag{13}\]

Calculo de distancias $D_1$ y $D_2$:

Distancia 1 $D_1$.

\[\begin{align} D_1=|P(Z_i)-P_i|, ~ \forall ~i&=1,2,...,n \end{align} \tag{14}\]

Distancia 2 $D_2$.

\[\begin{align} D_2=|P(Z_i)-P_{i-1}|,~ \forall ~i&=1,2,...,n \end{align} \tag{15}\]

Escojo el valor para el estadístico de prueba $D$

\[\begin{align} D=max\left\lbrace D_1,D_2 \right\rbrace \end{align} \tag{16}\]

Comparamos el estadístico de prueba $D$ con el estadístico teórico $KS$

\[\begin{align} KS=\frac{C_\alpha}{K(n)} \end{align} \tag{17}\]

$C_\alpha$ viene dado por tablas de la siguiente manera (Tabla 6).

Tabla 6: $C_{\alpha}$

$C_{\alpha}$ por distribución	$\alpha=0.1$	$\alpha=0.05$	$\alpha=0.01$
Normal	0.819	0.895	1.035
Exponencial	0.990	1.094	1.308
Weibull	0.760	0.819	0.944

El valor de $K(n)$ también se encuentra tabulado, y lo encontramos de la siguiente forma (Tabla 7):

Tabla 7: $K(n)$.

$K(n)$ por distribución	$K(n)$
Normal	$\sqrt{n}-0.01+\frac{0.85}{\sqrt{n}}$
Exponencial	$\sqrt{n}+0.12+\frac{0.11}{\sqrt{n}}$
Weibull	$\sqrt{n}$

\[Si~D>KS \rightarrow Rechazo~H_o\]

Verificación formal en R con Test Kolmogorov-Smirnov ejemplo Toluca Company.

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1.

#Datos
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)

#Modelo
modelo <- lm(horas~tamano)

#Residuales
residuales <- modelo$residuals

# Test Kolmogorov - Smirnov
library(nortest)
lillie.test(residuales)


    Lilliefors (Kolmogorov-Smirnov) normality test

data:  residuales
D = 0.09572, p-value = 0.8027

Del procedimiento en R se obtiene que:

\[\begin{align} D = 0.09572 \end{align}\]

Tomando la Ecuación 17, los datos de la Tabla 6 y Tabla 7, para un nivel de significancia $\alpha=0.05$ y $n=25$ se obtiene que:

\[\begin{align} KS = \frac{0.895}{\sqrt{25}-0.01+\frac{0.85}{\sqrt{25}}} = 0.1734496 \end{align}\]

Por lo que se puede concluir que;

\[\begin{align} D = 0.09572 \ngtr KS= 0.1734496 \end{align}\]

No existe suficiente evidencia estadística para rechazar $H_0$, los residuales $e_i,~ i=1,2,...,25$ provienen de una distribución normal. Se cumple supuesto de normalidad.

\(K(n)\) por distribución	\(K(n)\)
Normal	\(\sqrt{n}-0.01+\frac{0.85}{\sqrt{n}}\)
Exponencial	\(\sqrt{n}+0.12+\frac{0.11}{\sqrt{n}}\)
Weibull	\(\sqrt{n}\)

Observación \(i\)	\(x_i\): Tamaño de lote	\(y_i\): Horas de trabajo
1	80	399
2	30	121
3	50	221
4	90	376
5	70	361
6	60	224
7	120	546
8	80	352
9	100	353
10	50	157
11	40	160
12	70	252
13	90	389
14	20	113
15	110	435
16	100	420
17	30	212
18	50	268
19	90	377
20	110	421
21	30	273
22	90	468
23	40	244
24	80	342
25	70	323

Observación \(i\)	\(x_i\): Tamaño de lote	\(y_i\): Horas de trabajo
1	80	399
2	30	121
3	50	221
4	90	376
5	70	361
6	60	224
7	120	546
8	80	352
9	100	353
10	50	157
11	40	160
12	70	252
13	90	389
14	20	113
15	110	435
16	100	420
17	30	212
18	50	268
19	90	377
20	110	421
21	30	273
22	90	468
23	40	244
24	80	342
25	70	323

Observación \(i\)	\(x_i\): Tamaño de lote	\(y_i\): Horas de trabajo
1	80	399
2	30	121
3	50	221
4	90	376
5	70	361
6	60	224
7	120	546
8	80	352
9	100	353
10	50	157
11	40	160
12	70	252
13	90	389
14	20	113
15	110	435
16	100	420
17	30	212
18	50	268
19	90	377
20	110	421
21	30	273
22	90	468
23	40	244
24	80	342
25	70	323