Verificación de la adecuación del modelo - Normalidad

En es importante examinar la idoneidad del modelo para los datos antes de usar, de manera práctica, el modelo. En este apartado del curso, se discutirán, métodos gráficos y formales para verificar la adecuación del modelo con respecto a los principales supuestos. Los principales supuestos a tener en cuenta son:

Si se cumple la normalidad y la no autoccorelación, implícitamente los errores son variables aleatorias independientes.

El estudio de los supuestos anteriores se realiza principalmente sobre los residuales del modelo.

Residuales

Los residuales \(e_i\) son definidos como la diferencia entre el valor observado de \(y_i\) y el valor ajustado o estimado \(\hat{y_i}\), como se muestra en la Ecuación 1.

\[\begin{align} e_i = y_i - \hat{y_i} \end{align} \tag{1}\]

Los residuales pueden ser visto como el error observado a diferencia del verdadero error \(\epsilon_i\) desconocido en el modelo de regresión (Ecuación 2).

\[\begin{align} \epsilon_i = y_i - E(y_i) \end{align} \tag{2}\]

Para el modelo de regresión lineal simple, Ecuación 3.

\[\begin{align} y_i = \beta_0 + \beta_1x_i + \epsilon_i \end{align} \tag{3}\]

Los términos del error \(\epsilon\) son asumidos como variables aleatorias normales independientes, con media \(0\) y varianza \(\sigma^2\) constante.

Si el modelo es adecuado para los datos en cuestión, los residuales observados \(e_i\) deberían reflejar las propiedades asumidas para \(\epsilon\);. Esta es la idea básica que subyace en el análisis residual, un medio muy útil para examinar la idoneidad de un modelo estadístico.

Propiedades de los residuales

Media

La media de los \(n\) residuales \(e_i\) para el modelo de regresión lineal simple, Ecuación 3, está dada en la Ecuación 4:

\[\begin{align} \bar{e} = \frac{\sum_{i=1}^n e_i}{n} =0 \end{align} \tag{4}\]

Como la media de los residuales \(e_i\) es siempre 0, no presenta ninguna información sobre si los errores verdaderos \(\epsilon_i\) tienen valor esperado $E[_i] =0 $

Varianza

La varianza para los \(n\) residuales \(e_i\) para el modelo de regresión lineal simple, Ecuación 3, es definida como sigue (Ecuación 5):

\[\begin{align} s^2 &= \frac{\sum_{i=n}^n (e_i - \bar{e})^2}{n-2} \\ \\ s^2 &= \frac{\sum_{i=n}^n e_i^2}{n-2} \\ \\ s^2 &= \frac{SSE}{n-2} \\ \\ s^2 &= MSE \end{align} \tag{5}\]

Residuales semiestudentizados

En ocasiones, resulta útil estandarizar los residuales para el análisis. Dado que la desviación típica de los términos de error \(\epsilon_i\); es \(\sigma\), que se estima por \(\sqrt{MSE}\), es natural considerar la siguiente forma de estandarización:

\[\begin{align} e_i^* &= \frac{e_i - \bar{e}}{\sqrt{MSE}} \\ \\ e_i^* &= \frac{e_i}{\sqrt{MSE}} \end{align} \tag{6}\]

\(e_i^*\) de la Ecuación 6 son llamados residuales estudentizados o semiestudentizados.

Verificación gráfica del supuesto de normalidad. Gráficos Cuantil - Cuantil.

Un procedimiento gráfico para verificar el supuesto de normalidad de los residuales \(e_i\) consiste en graficar los residuos versus una probabilidad acumulada o versus la normal inversa de la probabilidad acumulada. Para ello se siguen los siguientes pasos:

  1. Es necesario poseer los cálculos de los \(n\) residuales \(e_{i}\).

  2. Ordenar los \(n\) valores de los residuales en orden ascendente y asignarles en ese orden los valores de \(1~a~n\).Sean \(r_i\) con \(i=1,2,...,n\) los datos de los residuales \(e_i\) en orden creciente.

  3. Calcular una posición de graficación para cada dato en función de su rango y del total de observaciones como:

\[\begin{align} p_i=\frac{i-0.5}{n}~,~i=1,2,...,n \end{align} \tag{7}\]

  1. Calcular la normal inversa \(Z_i\) de \(\frac{i-0.5}{n}~,~i=1,2,...,n\), es decir:

\[\begin{align} Z_i=\phi^{-1}\left(\frac{i-0.5}{n}\right) \end{align} \tag{8}\]

  1. Graficar en el eje de las abscisas los \(p_i\) o \(Z_i\) y en el eje de las ordenadas los \(r_i\).

Si los residuos siguen una distribución normal, al graficarlos tienden a quedar alineados en una línea recta; por lo tanto, si claramente no se alinean se concluye que el supuesto de normalidad no es correcto.

Cabe enfatizar el hecho de que el ajuste de los puntos a una recta no tiene que ser perfecto. No deberían existir desviaciones importantes a la línea recta para sospechar sobre el incumplimiento del supuesto de normalidad. En todo caso, siempre se recomienda realizar el proceso de verificaicón formal o analítico.

Verificación gráfica ejemplo Toluca Company

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1

Tabla 1: Ejemplo Toluca Company.
Observación \(i\) \(x_i\): Tamaño de lote \(y_i\): Horas de trabajo
1 80 399
2 30 121
3 50 221
4 90 376
5 70 361
6 60 224
7 120 546
8 80 352
9 100 353
10 50 157
11 40 160
12 70 252
13 90 389
14 20 113
15 110 435
16 100 420
17 30 212
18 50 268
19 90 377
20 110 421
21 30 273
22 90 468
23 40 244
24 80 342
25 70 323

Se realiza el cálculo de los ajustados \(\hat{y_i}\) y residuales \(e_i\), Tabla 2:

Tabla 2: Cálculo de residuales.
Observación \(i\) \(\hat{y_i}\): Ajustados \(e_i\): Residuales
1 347.9820 51.0179798
2 169.4719 -48.4719192
3 240.8760 -19.8759596
4 383.6840 -7.6840404
5 312.2800 48.7200000
6 276.5780 -52.5779798
7 490.7901 55.2098990
8 347.9820 4.0179798
9 419.3861 -66.3860606
10 240.8760 -83.8759596
11 205.1739 -45.1739394
12 312.2800 -60.2800000
13 383.6840 5.3159596
14 133.7699 -20.7698990
15 455.0881 -20.0880808
16 419.3861 0.6139394
17 169.4719 42.5280808
18 240.8760 27.1240404
19 383.6840 -6.6840404
20 455.0881 -34.0880808
21 169.4719 103.5280808
22 383.6840 84.3159596
23 205.1739 38.8260606
24 347.9820 -5.9820202
25 312.2800 10.7200000

Se organizan los residuales \(e_i\) de manera ascendente, obteniendo los \(r_i\) residuales organizados, Tabla 3.

Tabla 3: Residuales organizados.
Observación \(i\) \(e_i\): Residuales \(r_i\): Residuales organizados
1 51.0179798 -83.8759596
2 -48.4719192 -66.3860606
3 -19.8759596 -60.2800000
4 -7.6840404 -52.5779798
5 48.7200000 -48.4719192
6 -52.5779798 -45.1739394
7 55.2098990 -34.0880808
8 4.0179798 -20.7698990
9 -66.3860606 -20.0880808
10 -83.8759596 -19.8759596
11 -45.1739394 -7.6840404
12 -60.2800000 -6.6840404
13 5.3159596 -5.9820202
14 -20.7698990 0.6139394
15 -20.0880808 4.0179798
16 0.6139394 5.3159596
17 42.5280808 10.7200000
18 27.1240404 27.1240404
19 -6.6840404 38.8260606
20 -34.0880808 42.5280808
21 103.5280808 48.7200000
22 84.3159596 51.0179798
23 38.8260606 55.2098990
24 -5.9820202 84.3159596
25 10.7200000 103.5280808

Se calcula \(p_i\), Tabla 4.

Tabla 4: Posición teórica
Observación \(i\) \(p_i\)
1 0.02
2 0.06
3 0.10
4 0.14
5 0.18
6 0.22
7 0.26
8 0.30
9 0.34
10 0.38
11 0.42
12 0.46
13 0.50
14 0.54
15 0.58
16 0.62
17 0.66
18 0.70
19 0.74
20 0.78
21 0.82
22 0.86
23 0.90
24 0.94
25 0.98

Se calcula \(Z_i=\phi^{-1}\left(\frac{i-0.5}{n}\right)\) ,Tabla 5.

Tabla 5: Normal inversa.
Observación \(i\) \(r_i\): Residuales organizados \(p_i\) \(Z_i\)
1 -83.8759596 0.02 -2.0537489
2 -66.3860606 0.06 -1.5547736
3 -60.2800000 0.10 -1.2815516
4 -52.5779798 0.14 -1.0803193
5 -48.4719192 0.18 -0.9153651
6 -45.1739394 0.22 -0.7721932
7 -34.0880808 0.26 -0.6433454
8 -20.7698990 0.30 -0.5244005
9 -20.0880808 0.34 -0.4124631
10 -19.8759596 0.38 -0.3054808
11 -7.6840404 0.42 -0.2018935
12 -6.6840404 0.46 -0.1004337
13 -5.9820202 0.50 0.0000000
14 0.6139394 0.54 0.1004337
15 4.0179798 0.58 0.2018935
16 5.3159596 0.62 0.3054808
17 10.7200000 0.66 0.4124631
18 27.1240404 0.70 0.5244005
19 38.8260606 0.74 0.6433454
20 42.5280808 0.78 0.7721932
21 48.7200000 0.82 0.9153651
22 51.0179798 0.86 1.0803193
23 55.2098990 0.90 1.2815516
24 84.3159596 0.94 1.5547736
25 103.5280808 0.98 2.0537489

Se realiza gráfico de dispersión \(Z_i\) vs \(r_i\), Figura 1

Figura 1: Gráfico Cuantil - Cuantil (QQPLOT)

Verificación formal - analítica supuesto de normalidad mediante Test Kolmogorov-Smirnov

Consideremos una muestra aleatoria de datos \(x_1,x_2,...x_n\) que procede de cierta función desconocida denotada \(F(x)\). Se quiere verificar si dichos datos fueron generados por un proceso normal, mediante las hipótesis estadísticas.

  1. Planteamiento de hipótesis

\[\begin{align} H_o&: e_{i}\sim N(\mu,\sigma^2)\\H_1&: e_{i} \nsim N(\mu,\sigma^2) \\ \forall ~i&=1,2,...,n \end{align} \tag{9}\]

  1. Organización de los residuales \(e_{i}\) de manera ascendente, denotando los datos ordenados como:

\[\begin{align} r_i=x_{(1)},x_{(2)},...,x_{(n)},~con~i=1,2,3...n \end{align} \tag{10}\]

  1. Calculos probabilidad teórica (percentil) \(P_i\) de la forma:

\[\begin{align} P_i=\frac{i}{n},~ \forall ~i&=1,2,...,n \end{align} \tag{11}\]

  1. Estandarización los residuales organizados \(r_i\) de la siguiente manera:

\[\begin{align} Z_i=\frac{x_i-\bar{x}}{S(x_i)},~ \forall ~i&=1,2,...,n \end{align} \tag{12}\]

  • \(\bar{x}\) corresponde a la media muestra para los \(r_i\).
  • \(S(x_i)\) es la desviación estándar de la muestra de \(r_i\).
  1. Calculo de la probabilidad \(P(Z_i)\) para una distribución normal estándar.

\[\begin{align} P(Z_i)=\phi \left[\frac{x_i-\bar{x}}{S(x_i)} \right], ~ \forall ~i&=1,2,...,n \end{align} \tag{13}\]

  1. Calculo de distancias \(D_1\) y \(D_2\):
  1. Distancia 1 \(D_1\).

\[\begin{align} D_1=|P(Z_i)-P_i|, ~ \forall ~i&=1,2,...,n \end{align} \tag{14}\]

  1. Distancia 2 \(D_2\).

\[\begin{align} D_2=|P(Z_i)-P_{i-1}|,~ \forall ~i&=1,2,...,n \end{align} \tag{15}\]

  1. Escojo el valor para el estadístico de prueba \(D\)

\[\begin{align} D=max\left\lbrace D_1,D_2 \right\rbrace \end{align} \tag{16}\]

  1. Comparamos el estadístico de prueba \(D\) con el estadístico teórico \(KS\)

\[\begin{align} KS=\frac{C_\alpha}{K(n)} \end{align} \tag{17}\]

\(C_\alpha\) viene dado por tablas de la siguiente manera (Tabla 6).

Tabla 6: \(C_{\alpha}\)
\(C_{\alpha}\) por distribución \(\alpha=0.1\) \(\alpha=0.05\) \(\alpha=0.01\)
Normal 0.819 0.895 1.035
Exponencial 0.990 1.094 1.308
Weibull 0.760 0.819 0.944

El valor de \(K(n)\) también se encuentra tabulado, y lo encontramos de la siguiente forma (Tabla 7):

Tabla 7: \(K(n)\).
\(K(n)\) por distribución \(K(n)\)
Normal \(\sqrt{n}-0.01+\frac{0.85}{\sqrt{n}}\)
Exponencial \(\sqrt{n}+0.12+\frac{0.11}{\sqrt{n}}\)
Weibull \(\sqrt{n}\)

\[Si~D>KS \rightarrow Rechazo~H_o\]

Verificación formal en R con Test Kolmogorov-Smirnov ejemplo Toluca Company.

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1.

#Datos
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)

#Modelo
modelo <- lm(horas~tamano)

#Residuales
residuales <- modelo$residuals

# Test Kolmogorov - Smirnov
library(nortest)
lillie.test(residuales)

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  residuales
D = 0.09572, p-value = 0.8027

Del procedimiento en R se obtiene que:

\[\begin{align} D = 0.09572 \end{align}\]

Tomando la Ecuación 17, los datos de la Tabla 6 y Tabla 7, para un nivel de significancia \(\alpha=0.05\) y \(n=25\) se obtiene que:

\[\begin{align} KS = \frac{0.895}{\sqrt{25}-0.01+\frac{0.85}{\sqrt{25}}} = 0.1734496 \end{align}\]

Por lo que se puede concluir que;

\[\begin{align} D = 0.09572 \ngtr KS= 0.1734496 \end{align}\]

No existe suficiente evidencia estadística para rechazar \(H_0\), los residuales \(e_i,~ i=1,2,...,25\) provienen de una distribución normal. Se cumple supuesto de normalidad.