Verificación de la adecuación del modelo - Independencia

En es importante examinar la idoneidad del modelo para los datos antes de usar, de manera práctica, el modelo. En este apartado del curso, se discutirán, métodos gráficos y formales para verificar la adecuación del modelo con respecto a los principales supuestos. Los principales supuestos a tener en cuenta son:

Si se cumple la normalidad y la no autoccorelación, implícitamente los errores son variables aleatorias independientes.

El estudio de los supuestos anteriores se realiza principalmente sobre los residuales del modelo.

Residuales

Los residuales \(e_i\) son definidos como la diferencia entre el valor observado de \(y_i\) y el valor ajustado o estimado \(\hat{y_i}\), como se muestra en la Ecuación 1.

\[\begin{align} e_i = y_i - \hat{y_i} \end{align} \tag{1}\]

Los residuales pueden ser visto como el error observado a diferencia del verdadero error \(\epsilon_i\) desconocido en el modelo de regresión (Ecuación 2).

\[\begin{align} \epsilon_i = y_i - E(y_i) \end{align} \tag{2}\]

Para el modelo de regresión lineal simple, Ecuación 3.

\[\begin{align} y_i = \beta_0 + \beta_1x_i + \epsilon_i \end{align} \tag{3}\]

Los términos del error \(\epsilon\) son asumidos como variables aleatorias normales independientes, con media \(0\) y varianza \(\sigma^2\) constante.

Si el modelo es adecuado para los datos en cuestión, los residuales observados \(e_i\) deberían reflejar las propiedades asumidas para \(\epsilon\);. Esta es la idea básica que subyace en el análisis residual, un medio muy útil para examinar la idoneidad de un modelo estadístico.

Propiedades de los residuales

Media

La media de los \(n\) residuales \(e_i\) para el modelo de regresión lineal simple, Ecuación 3, está dada en la Ecuación 4:

\[\begin{align} \bar{e} = \frac{\sum_{i=1}^n e_i}{n} =0 \end{align} \tag{4}\]

Como la media de los residuales \(e_i\) es siempre 0, no presenta ninguna información sobre si los errores verdaderos \(\epsilon_i\) tienen valor esperado $E[_i] =0 $

Varianza

La varianza para los \(n\) residuales \(e_i\) para el modelo de regresión lineal simple, Ecuación 3, es definida como sigue (Ecuación 5):

\[\begin{align} s^2 &= \frac{\sum_{i=n}^n (e_i - \bar{e})^2}{n-2} \\ \\ s^2 &= \frac{\sum_{i=n}^n e_i^2}{n-2} \\ \\ s^2 &= \frac{SSE}{n-2} \\ \\ s^2 &= MSE \end{align} \tag{5}\]

Residuales semiestudentizados

En ocasiones, resulta útil estandarizar los residuales para el análisis. Dado que la desviación típica de los términos de error \(\epsilon_i\); es \(\sigma\), que se estima por \(\sqrt{MSE}\), es natural considerar la siguiente forma de estandarización:

\[\begin{align} e_i^* &= \frac{e_i - \bar{e}}{\sqrt{MSE}} \\ \\ e_i^* &= \frac{e_i}{\sqrt{MSE}} \end{align} \tag{6}\]

\(e_i^*\) de la Ecuación 6 son llamados residuales estudentizados o semiestudentizados.

Verificación gráfica del supuesto de independencia.

La graficación de los residuales en orden temporal, de obtención de datos o de recolección de los datos, en los casos en que estos sean tomados de forma experimental, es útil para detectar correlaciones entre los residuales \(e_i\). Una tendencia identificable en el gráfico de residuales en orden temporal indica una correlación entre ellos. Esto implicaría que el supuesto de independencia de los errores \(\epsilon_i\) ha sido violado.

Una forma gráfica de verificar el supuesto de independencia es realizando un gráfico del siguiente tipo:

  • Eje X \(\rightarrow\) secuencia de tiempo desde \(t=1\) hasta \(t=n\).
  • Eje Y \(\rightarrow\) residuales \(e_{i}\)

Cuando los términos de error son independientes, esperamos que los residuos en un gráfico de secuencia fluctúen en un patrón más o menos aleatorio alrededor de la línea base.

Verificación gráfica ejemplo Toluca Company

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1

Tabla 1: Ejemplo Toluca Company.
Observación \(i\) \(x_i\): Tamaño de lote \(y_i\): Horas de trabajo
1 80 399
2 30 121
3 50 221
4 90 376
5 70 361
6 60 224
7 120 546
8 80 352
9 100 353
10 50 157
11 40 160
12 70 252
13 90 389
14 20 113
15 110 435
16 100 420
17 30 212
18 50 268
19 90 377
20 110 421
21 30 273
22 90 468
23 40 244
24 80 342
25 70 323

Se realiza el cálculo de los residuales \(e_i\), Tabla 2:

Tabla 2: Cálculo de residuales.
Observación \(i\) \(e_i\): Residuales
1 51.0179798
2 -48.4719192
3 -19.8759596
4 -7.6840404
5 48.7200000
6 -52.5779798
7 55.2098990
8 4.0179798
9 -66.3860606
10 -83.8759596
11 -45.1739394
12 -60.2800000
13 5.3159596
14 -20.7698990
15 -20.0880808
16 0.6139394
17 42.5280808
18 27.1240404
19 -6.6840404
20 -34.0880808
21 103.5280808
22 84.3159596
23 38.8260606
24 -5.9820202
25 10.7200000

Se realiza gráfico de secuencia de tiempo \(t\) vs \(e_i\), Figura 1

Figura 1: Gráfico Ajustados vs Residuales

En la Figura 1 no se observa un patrón claro, los residuales en secuencia de tiempo parecen tener una disposición más o menos aleatoria alrededor de \(y=0\). No se observa evidencia para dudar sobre la violación del supuesto de independencia

Verificación formal - analítica supuesto de independencia mediante Test de Durbin - Watson.

La verificación formal-analítica del supuesto de independencia se realiza de manera indirecta a través del Test de Durbin-Watson. Esta prueba permite diagnosticar la presencia de correlación (autocorrelación) entre los residuales consecutivos (ordenados en el tiempo), que es una posible manifestación de la falta de independencia. Es importante mencionar que si se ha comprobado la normalidad y se verifica la autocorrelación implica entonces independencia.

1. Planteamiento de la hipótesis.

Sea \(\rho\) el parámetro que representa la correlación entre residuales consecutivos (ordenados en secuancia temporal), es decir, \(\rho = corr(e_t,~e_{t+1})\). Las hipótesis en la prueba de Durbin-Watson se plantearían de la siguiente manera, Ecuación 7:

\[\begin{align} H_0&: \rho=0\\ H_1&: \rho \ne 0 \end{align} \tag{7}\]

2. Estadístico de prueba \(d_0\) y comparación.

El estadístico de prueba \(d_0\) para la prueba de Durbin - Watson se calcula según Ecuación 8

\[\begin{align} d_0 =\frac{\sum_{t=2}^T (e_t - e_{t-1})^2}{\sum_{t=1}^T e_t^2}~;~~ \forall~~ t=1,2,..., T \end{align} \tag{8}\]

\(e_t\) corresponde a los residuales \(e_i\) en secuencia temporal.

Se compara el estadístico de prueba con límites teóricos \(d_L\) y \(d_U\) usando las reglas expuestas en la ?@eq-9:

$$\[\begin{align} &Si~ d_0 < d_L~\rightarrow~Se~rechaza~H_0\\ &Si~ d_L<d_0<d_U ~\rightarrow~Prueba~no~concluyente\\ &Si~ d_U<d_0<4-d_U ~\rightarrow~No~se~rechaza~H_0\\ &Si~ 4-d_U<d_0<4-d_L ~\rightarrow~Prueba~no~concluyente\\ &Si~ d_0 > 4-d_L~\rightarrow~Se~rechaza~H_0\\ \end{align}\]$$ {#eq-9}

## Verificación formal en R con Test Durbin-Watson ejemplo Toluca Company

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 1. Se realizará división de grupos según tamaño del lote.

#Datos
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)

#Modelo
modelo <- lm(horas~tamano)

#Residuales
residuales <- modelo$residuals

#Prueba de Durbin-Watson
library(car)
durbinWatsonTest(modelo, alternative="two.sided")
 lag Autocorrelation D-W Statistic p-value
   1       0.2593193       1.43179    0.18
 Alternative hypothesis: rho != 0

Según el resultado anterior, se obtiene lo siguiente, suponiendo \(\alpha = 0,05\):

  • \(d_0=1,43179\)

  • Cantidad de residuales \(n=25\)

  • Cantidad de variables regresoras \(1\)

De tabla se obtiene lo siguiente:

  • \(d_L: 1,288\)

  • \(d_U: 1,454\)

  • \(4-d_U= 2,546\)

  • \(4-d_L= 2,712\)

Como \(d_L = 1.288 < d_0 = 1,43179 < d_U=1.454\) La prueba de Durbin-Watson no es concluyente para autocorrelación. En estos casos o se apoya los resultados en la verificación gráfica o se pasa a plantear medidas remediales.

#Código para calcular manualmente el estadístico de prueba
#Datos
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)

#Modelo
modelo <- lm(horas~tamano)

#Residuales
residuales <- modelo$residuals

#d_0
numerador <- sum((residuales[2:length(residuales)] - residuales[1:(length(residuales) - 1)])^2)
denominador <- sum((residuales)^2)
d_0 <- numerador/denominador
d_0
[1] 1.43179