Con frecuencia, en el estudio de datos usando modelos de regresión lineal simple es importante realizar inferencias sobre \(\beta_1\) que corresponde a la pendiente de la recta de regresión planteada en Ecuación 1.
Por ejemplo, una analista de mercado o de producción que estudie la relación entres las ventas (\(y\)) y los gastos en publicidad (\(x\)) puede desear obtener una estimación del intervalo de \(\beta_1\), porque le proporciona información sobre cuantos pesos de ventas adicionales, en promedio, genera un pesos adicional de gasto en publicidad.
Estadísticamente, es importante comprobar mediante inferencia si el parámetro \(\beta_1\) es igual o diferente de cero. La razón de este interés radica en que si \(\beta_1=0\), no existe relación o asociación lineal entre \(y\) y \(x\), como se muestra a continuación:
Antes de seguir discutiendo las inferencias relativas al parámetro \(\beta_1\), se debe considerar la distribución muestral de \(\hat{\beta_1}\), correspondiente al estimador puntual de \(\beta_1\)
Distribución muestral de \(\hat{\beta_1}\)
El estimador puntual \(\hat{\beta_1}\) esta dado por la Ecuación 2
La distribución muestral de \(\hat{\beta_1}\) se refiere a los diferentes valores de \(\hat{\beta_1}\) que se obtendrían con un muestreo repetido cuando los niveles de la variable predictora \(x\) se mantienen constantes de una muestra a otra.
Para el modelo de regresión normal de Ecuación 1 la distribución muestral para \(\hat{\beta_1}\) es normal con la siguiente media y varianza (Ecuación 3):
Para mostrar lo expuesto en Ecuación 3, es necesario mostrar que \(\hat{\beta_1}\) es combinación lineal de las observaciones \(y_i\). Lo anterior se expresa matemáticamente como se muestra en la Ecuación 4:
Para comprobar lo expresado anteriormente, se observará si la Ecuación 2 es equivalente a lo expresado en la Ecuación 4. A partir de la Ecuación 2 se expande su numerador \(\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\) como sigue:
Como se observa la Ecuación 6 es igual a la Ecuación 7. Se puede observar, también, que los \(k_i\) son función de los \(x_i\), por lo que los \(k_i\) son cantidades fijas cuando \(x_i\) ha sido fijado. Con lo anterior, se comprueba que \(\hat{\beta_1}\) es combinación lineal de \(y_i\).
Los coeficientes \(k_i\) tienen propiedades importantes que se enumeran a continuación.
Para mostrar la propiedad se calculan \(k_1\) para el ejemplo de resistencia del motor de cohete, los cálculos de todos los \(k_i\) se muestran en la Tabla 2.
Es importante recordar el ejemplo:
Un motor de cohete se fabrica uniendo dos piezas importantes dentro de una carcasa de metal: el propulsor de encendido y el propulsor de sustentación. La resistencia al corte de la unión entre los dos tipos de propulsor es una característica de calidad importante. Se sospecha que la resistencia al corte está relacionada con la edad en semanas del lote de propulsor sustentador. Se han recopilado veinte observaciones sobre la resistencia al corte y la edad del lote correspondiente de propulsor que se muestran en la Tabla 1
Para mostrar la propiedad se usan los cálculos de los \(k_i\) mostrados en la Tabla 2 para el ejemplo de resistencia del motor de cohete y se comprueba la propiedad en la Tabla 3.
Volviendo a la distribución muestral de \(\hat{\beta_1}\) para el modelo de regresión de la Ecuación 1, la normalidad de la distribución muestral de \(\hat{\beta_1}\) se deduce inmediatamente del hecho de que \(\hat{\beta_1}\) es una combinación lineal de \(y_i\). Los \(y_i\) se distribuyen de forma normal y son independientes.
Media
El estimador puntual insesgado para \(\beta_1\) se puede hallar de la siguiente manera:
La varianza de \(\hat{\beta_1}\) puede deducirse de manera rápida recordando que \(y_i\) son variables aleatorias independientes, cada \(y_i\) con varianza \(\sigma^2\), y que cada \(k_i\) es una constante, obteniendo:
El estimador puntual \(S^2(\hat{\beta_1})\) es un estimador insesgado para \(\sigma^2(\hat{\beta_1})\)
Distribución muestral de \(\frac{\hat{\beta_1}-\beta_1}{S(\hat{\beta_1})}\)
Dado que \(\hat{\beta_1}\) sigue un distribución normal, se puede establecer que el estadístico \(\frac{\hat{\beta_1}-\beta_1}{\sigma(\hat{\beta_1})}\) es una variable normal estándar. \(\sigma(\hat{\beta_1})\) se estima usando \(S(\hat{\beta_1})\) y por lo tanto, es de interés establecer la distribución muestral de \(\frac{\hat{\beta_1}-\beta_1}{S(\hat{\beta_1})}\).
Cuando un estadístico está estandarizado pero el denominador es una desviación estándar estimada (\(S(\hat{\beta_1})\)) en lugar de la desviación estándar real (\(\sigma(\hat{\beta_1})\)) se denomina estadístico estudentizado. Un importante teorema estadístico afirma lo siguiente sobre la estadístico estudentizado:
Ejemplo: cálculo de intervalo de confianza para \(\beta_1\)
La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.
Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 4
Tabla 4: Ejemplo Toluca Company.
Observación \(i\)
\(x_i\): Tamaño de lote
\(y_i\): Horas de trabajo
1
80
399
2
30
121
3
50
221
4
90
376
5
70
361
6
60
224
7
120
546
8
80
352
9
100
353
10
50
157
11
40
160
12
70
252
13
90
389
14
20
113
15
110
435
16
100
420
17
30
212
18
50
268
19
90
377
20
110
421
21
30
273
22
90
468
23
40
244
24
80
342
25
70
323
Para resolver este problema es necesario conocer los coeficientes de regresión estimados, teniendo la ecuación de regresión como sigue:
\[\begin{align}
y = 62.37 + 3.57x
\end{align}\]
Usando la Ecuación 15 tenemos que el intervalo de confianza para \(\hat{\beta_1}\) es:
Para el modelo de regresión lineal simple los cuadrados medios del error, \(MSE\), se calculan dividiendo la suma de cuadrados del error, \(SSE\), entre los grados de libertad. \(n-2\), por lo que:
Se muestra en la , el cálculo de \(SSE\) se muestra en la Tabla 5
Tabla 5: SSE - Ejemplo Toluca Company.
Observación \(i\)
\(x_i\): Tamaño de lote
\(y_i\): Horas de trabajo
Predichos \(\hat{y_i}\)
\((y_i - \hat{y_i})^2\)
1
80
399
347.98202020202
2.602834e+03
2
30
121
169.471919191919
2.349527e+03
3
50
221
240.87595959596
3.950538e+02
4
90
376
383.68404040404
5.904448e+01
5
70
361
312.28
2.373638e+03
6
60
224
276.57797979798
2.764444e+03
7
120
546
490.790101010101
3.048133e+03
8
80
352
347.98202020202
1.614416e+01
9
100
353
419.386060606061
4.407109e+03
10
50
157
240.87595959596
7.035177e+03
11
40
160
205.173939393939
2.040685e+03
12
70
252
312.28
3.633678e+03
13
90
389
383.68404040404
2.825943e+01
14
20
113
133.769898989899
4.313887e+02
15
110
435
455.088080808081
4.035310e+02
16
100
420
419.386060606061
3.769216e-01
17
30
212
169.471919191919
1.808638e+03
18
50
268
240.87595959596
7.357136e+02
19
90
377
383.68404040404
4.467640e+01
20
110
421
455.088080808081
1.161997e+03
21
30
273
169.471919191919
1.071806e+04
22
90
468
383.68404040404
7.109181e+03
23
40
244
205.173939393939
1.507463e+03
24
80
342
347.98202020202
3.578457e+01
25
70
323
312.28
1.149184e+02
Total
-
-
-
5.482546e+04
De la Tabla 5 se obtiene que que \(SSE = 54825.46\). Para las \(25\) observaciones, los grados de libertad del error son \(n-2 = 25-2 = 23\), por lo que el \(MSE=2383.716\).
En la Tabla 6 se observan los cálculos para \(\sum_{i=1}^n (x_i - \bar{x})^2\)
Tabla 6: \(\sum_{i=1}^n (x_i-\bar{x})^2\) Toluca Company.
Observación \(i\)
\(x_i\): Tamaño de lote
\(x_i-\bar{x}\)
\((x_i-\bar{x})^2\)
1
80
10
100
2
30
-40
1600
3
50
-20
400
4
90
20
400
5
70
0
0
6
60
-10
100
7
120
50
2500
8
80
10
100
9
100
30
900
10
50
-20
400
11
40
-30
900
12
70
0
0
13
90
20
400
14
20
-50
2500
15
110
40
1600
16
100
30
900
17
30
-40
1600
18
50
-20
400
19
90
20
400
20
110
40
1600
21
30
-40
1600
22
90
20
400
23
40
-30
900
24
80
10
100
25
70
0
0
Total
-
-
19800
Se observa en Tabla 6 que \(\sum_{i=1}^n (x_i - \bar{x})^2 = 19800\), por lo que se podría calcular \(S(\hat{\beta})\) de la siguiente manera:
Es necesario encontrar el cuantil t de student que cumpla con una probabilidad de \(\left( 1-\frac{\alpha}{2} \right)\) y \(n-2\) grados de libertad. Si se buscan en tablas estadísticas como la que se encuentra en el siguiente enlace: Tablas estadísticas
Si el nivel de significancia \(\alpha=0.05\) el cuantil de la distribución t de student a utilizar es:
Así, con un nivel de confianza del \(0.95\), se estima que el número medio de horas de trabajo aumenta entre \(2.85\) y \(4.29\) horas por cada unidad adicional en el lote.
Test concercientes a \(\beta_1\)
Dado que \(\frac{\hat{\beta_1 - \beta_1}}{S(\hat{\beta_1})}\) sigue una distribución \(t\) con \(n-2\) grados de libertad, Las pruebas estadísticas relativas a \(\beta_1\) pueden realizarse usando una distribución \(t\). Los pasos a seguir son los siguientes (en el caso de una prueba de dos colas):
Planteamiento de hipótesis
Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_1\)
Por lo que existe evidencia estadística suficiente para rechazar \(H_0\), por lo que \(\beta_1 \neq 0\), existe relación lineal entre las horas de trabajo y el tamaño del lote.
Solución de ejemplo Toluca Company en R para el test de \(\beta_1\)
Se solucionará en R el test para \(\beta_1\) en ejemplo de Toluca Company
# Diligenciar los datos de las observaciones reales como vectorestamano <-c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)horas<-c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)#Planteamiento del modelo de datosmodelo <-lm(horas~tamano)# Extracción de la información del modelosummary(modelo)
Call:
lm(formula = horas ~ tamano)
Residuals:
Min 1Q Median 3Q Max
-83.876 -34.088 -5.982 38.826 103.528
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 62.366 26.177 2.382 0.0259 *
tamano 3.570 0.347 10.290 4.45e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 48.82 on 23 degrees of freedom
Multiple R-squared: 0.8215, Adjusted R-squared: 0.8138
F-statistic: 105.9 on 1 and 23 DF, p-value: 4.449e-10
# Obtención del cuantil teóricoqt((1-(0.05/2)), 23)
[1] 2.068658
Según los resultados para \(\beta_1\) el estadístico de prueba \(t_0\) se encuentra en la columna t-value como sigue:
\[\begin{align}
t_0= 10.290
\end{align}\]
Y el cuantil teórico para la distribución t Student cuando el nivel de significancia es \(\alpha = 0.05\) es igual a:
Existe evidencia estadística suficiente para rechazar\(H_0\), entonces, \(\beta_1 \neq 0\); existe relación lineal entre las horas de trabajo y el tamaño del lote.
Inferencias sobre \(\beta_0\)
Existen algunas ocasiones en donde se desea realizar inferencias sobre \(\beta_0\), intercepto de la recta de regresión. Esto ocurre cuando en alcance del modelo incluye a \(x=0\).
Distribución muestral de \(\hat{\beta_0}\)
El estimador puntual \(\hat{\beta_0}\) se ha visto en contenidos anteriores, y está dado como sigue:
La distribución muestral de \(\hat{\beta_0}\) se refiera a los diferentes valores que se obtendrían con un muestreo repetido cuando los niveles de la variable predictora \(x\) se mantienen constantes de una muestra a otra.
Para el modelo de regresión lineal simple la distribución muestral para \(\hat{\beta_0}\) es normal, con media y varianza como siguen:
La normalidad de la distribución muestral de \(\hat{\beta_0}\) se deduce porque \(\hat{\beta_0}\), al igual que \(\hat{\beta_1}\) , es una combinación lineal de las observaciones \(y_i\). Los resultados de la media y la varianza de la distribución muestral de \(\hat{\beta_0}\) pueden obtenerse de forma similar a los de \(\hat{\beta_1}\).
Un estimador puntual para \(\sigma^2(\hat{\beta_0})\) es obtenido reemplazando \(\sigma^2\) por su estimador puntual \(MSE\), por lo tanto:
Dado que \(\frac{\hat{\beta_0 - \beta_0}}{S(\hat{\beta_0})}\) sigue una distribución \(t\) con \(n-2\) grados de libertad, Las pruebas estadísticas relativas a \(\beta_0\) pueden realizarse usando una distribución \(t\). Los pasos a seguir son los siguientes (en el caso de una prueba de dos colas):
Planteamiento de hipótesis
Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_1\)
Algunas consideraciones para hacer inferencias concernientes a \(\beta_0\) y \(\beta_1\)
Efectos de desviaciones de la normalidad
Si las distribuciones de probabilidad de \(y\) no son exactamente normales pero no se alejan mucho, las distribuciones muestrales de \(\hat{\beta_0}\) y \(\hat{\beta_1}\) serán aproximadamente normales, y el uso de la distribución \(t\) proporcionará aproximadamente el nivel de significancia o coeficiente de confianza especificados. Incluso si las distribuciones de \(y\) distan mucho de ser normales, los estimadores \(\hat{\beta_0}\) y \(\hat{\beta_1}\) suelen tener la propiedad de normalidad asintótica: sus distribuciones se aproximan a la normalidad en condiciones muy generales a medida que aumenta el tamaño de la muestra. Por lo tanto, con muestras suficientemente grandes, los intervalos de confianza y las reglas de decisión dadas anteriormente siguen siendo aplicables incluso si las distribuciones de probabilidad de \(y\) se alejan de la normalidad. Para muestras grandes, el valor \(t\) se sustituye, por supuesto, por el valor \(z\) para la distribución normal estándar.
Interpretación del nivel de significancia y riesgos de error
Dado que el modelo de regresión supone que las \(x_i\) son constantes conocidas, el, coeficiente de confianza y los riesgos de errores se interpretan con respecto a la toma de muestras repetidas en las que las observaciones \(x\) se mantienen en los mismos niveles que en la muestra observada. Por ejemplo, construimos un intervalo de confianza para \(\beta_1\), con coeficiente de confianza \(0.95\) en el ejemplo de la empresa Toluca. Este coeficiente se interpreta en el sentido de que si se toman muchas muestras independientes en las que los niveles de \(x\) (los tamaños de lote) son los mismos que en el conjunto de datos y se construye un intervalo de confianza del \(95\%\) para cada muestra, el \(95\%\) de los intervalos contendrán el valor verdadero de \(\beta_1\).
Distancia entre los niveles de \(x\)
Si se revisan las ecuaciones Ecuación 12 y Ecuación 23 para las varianzas de \(\hat{\beta_1}\) y \(\hat{\beta_0}\), respectivamente, indican que para \(n\) y \(\sigma^2\) dados, estas varianzas se ven afectadas por el espaciado de los niveles \(x\) en los datos observados. Por ejemplo, cuanto mayor es la dispersión de los niveles \(x\), mayor es \(\sum_{i=1}^n (x_i - \bar{x})^2\) y menor es la varianza de \(\hat{\beta_1}\). Las observaciones pueden espaciarse en experimentos de manera controlada.
Estimación de \(E(Y_h)\)
Un objetivo habitual en el análisis de regresión es estimar la media de una o varias distribuciones de probabilidad de \(y\). Por ejemplo, un estudio de la relación entre el nivel de remuneración del trabajo a destajo \((x)\) y la productividad de los trabajadores \((y)\).La productividad media en los niveles alto y medio del salario puede ser de especial interés para analizar los beneficios obtenidos de un aumento del salario.
Sea \(x_h\) el nivel de \(x\) para el que deseamos estimar la respuesta media. \(x_h\) puede ser un valor que ocurrió en la muestra, o puede ser algún otro valor de la variable predictora dentro del ámbito del modelo. La respuesta media cuando \(x = x_h\) se denota por \(E~(y_h)\). La ecuación Ecuación 31 nos da el estimador puntual \(\hat{y_h}\) de \(E~(y_h)\):
La distribución muestral de \(\hat{y_h}\) se refiere a los diferentes valores que se obtendrían de \(y_h\) con un muestreo repetido cuando los niveles de la variable predictora \(x\) se mantienen constantes de una muestra a otra. La distribución muestral para \(y_h\) es normal, con media y la varianza que se muestran en la Ecuación 34
Si se sustituye \(\sigma^2\) por \(MSE\) en la Ecuación 34, se obtiene \(S^2(\hat{y_h})\), que corresponde a la varianza estimada para \(\hat{y_h}\), se muestra el resultado en la Ecuación 35
Por lo tanto, todas las inferencias relativas a \(E(y_h)\) se realizan de la forma habitual con la distribución \(t\). Ilustramos la construcción de intervalos de confianza, ya que en la práctica se utilizan con más frecuencia que las pruebas.
Intervalo de confianza para \(E(y_h)\)
Un intervalo de confianza para \(E(y_h)\) se construye usando la distribución \(t\) de la siguiente manera (Ecuación 35):
Consideremos ahora el pronóstico de una nueva observación \(y\) correspondiente a un nivel dado \(x\) de la variable predictora. A continuación se presentan tres ejemplos en los que es necesario predecir una nueva
En el ejemplo de la empresa Toluca, el próximo lote a producir consta de 100 unidades y la dirección desea predecir el número de horas de trabajo para este lote en particular.
Un economista ha estimado la relación de regresión entre las ventas de la empresa y el número de personas de 16 años o más a partir de los datos de los últimos 10 años. A partir de una proyección demográfica fiable del número de personas de 16 años o más para el próximo año, el economista desea pronosticar las ventas de las empresas del próximo año.
Un responsable de admisiones de una universidad ha estimado la relación de regresión entre el promedio de bachillerato de los estudiantes admitidos y el promedio del primer año de universidad. El responsable de admisiones desea pronosticar el promedio del primer año de universidad de un solicitante cuya nota media de bachillerato es 3,5 como parte de la información en la que se basará la decisión de admisión.
La nueva observación sobre \(y\) que debe predecirse se considera el resultado de un nuevo ensayo, independiente de los ensayos en los que se basa el análisis de regresión. Se denota el nivel de \(x\) para el nuevo ensayo como \(X_h\) y la nueva observación sobre \(y\) como \(y_{h(n)}\), Por supuesto, se supone que el modelo de regresión subyacente aplicable a los datos de la muestra básica sigue siendo apropiado para la nueva observación.
La distinción entre la estimación de la respuesta media \(E(Y_h)\), analizada en la sección anterior, y el pronóstico de una nueva respuesta \(Y_{h(n)}\), analizada ahora, es básica. En el primer caso, estimamos la media de la distribución de \(y\). En el presente caso, pronosticamos un resultado individual extraído de la distribución de \(y\). Por supuesto, la gran mayoría de los resultados individuales se desvían de la respuesta media, y esto debe tenerse en cuenta en el procedimiento de pronostico de \(Y_{h(n)}\).
Intervalo de pronóstico para \(y_{h(n)}\) con parámetros conocidos.
Se realiza un ejemplo para el caso en el que el responsable de admisiones de una universidad desea pronosticar el promedio del primer año de la universidad a partir de su nota promedio del bachillerato. Los parámetros relevantes del modelo de regresión conocidos son:
El responsable de admisiones está analizando aun solicitante de nuevo ingreso cuyo promedio en bachillerato fue de \(y_{h(n)} = 3,50\). El promedio del aspirante según el modelo de datos corresponde a:
Dado que el \(99,7\%\) del área de una distribución de probabilidad normal cae dentro de tres desviaciones estándar de la media, la probabilidad es de \(0,997\) de que este intervalo de predicción dé una predicción correcta para el solicitante con un GPA de 3,5 en el instituto. Aunque los límites de predicción aquí son bastante amplios, por lo que la predicción no es demasiado precisa, el intervalo de predicción indica al responsable de admisiones que se espera que el solicitante alcance al menos un 3,0 de nota media en el primer año de universidad.
Intervalo de pronóstico para \(y_{h(n)}\) con parámetros desconocidos.
Los límites de predicción para una nueva observación \(y_{h(n)}\) en un nivel dado de \(x_h\) se obtienen teniendo en cuenta que:
# Diligenciar los datos de las observaciones reales como vectorestamano <-c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)horas<-c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)datos <-data.frame(tamano,horas)#Planteamiento del modelo de datosmodelo <-lm(horas~tamano, data = datos)#Nuevos datos de la variable regresora para predicciontamano_n <-c(35,45,48,59,107)tamano_n <-data.frame(tamano_n)colnames(tamano_n)[colnames(tamano_n)=="tamano_n"] <-"tamano"#Prediccionprediccion <-predict(modelo, newdata = tamano_n, interval="prediction")prediccion
Enfoque de análisis de varianza para el análisis de regresión
El Análisis de Varianza (ANOVA) en el contexto de un modelo de regresión lineal simple se utiliza para descomponer la variabilidad total en los datos en componentes que pueden ser explicados por el modelo y aquellos que no pueden ser explicados (residuales). Esto permite evaluar la significancia estadística del modelo, es decir, si la relación entre la variable dependiente y la independiente es lo suficientemente fuerte como para no ser atribuida al azar, esto es, evaluar si la variable regresora \(x\) tiene un efecto significativo en la variable respuesta \(y\). El enfoque del análisis de la varianza será más útil cuando abordemos los modelos de regresión múltiple y otros tipos de modelos estadísticos lineales.
Procedimiento para llevar a cabo Análisis de Varianza aplicado a un modelo de regresión lineal simple.
1. Planteamiento de las Hipótesis.
Las hipótesis correspondientes al análisis de varianza aplicado a un modelo de regresión lineal simple se muestran en la Ecuación 40
2. Descomposición de la variabilidad total. Cálculo de sumas de cuadrados \(SS\).
Se descompone la variabilidad total representada por la Suma de Cuadrados Total \(SST\) entre las sumas de cuadrados del Modelo o de la Regresión \(SSR\) y la Suma de Cuadrados del Error \(SSE\). Lo que se expresa en la Ecuación 41.
Se calculan los grados de libertad para el total \(DF_T\), los grados de libertad para la regresión \(DF_R\) y los grados de libertad para el error \(DF_E\), se especifican matemáticamente en la Ecuación 45, Ecuación 46 y Ecuación 47.
Se calculan los cuadrados medios para el total \(MST\), los cuadrados medios para la regresión \(MSR\) y los cuadraodos medios para el error \(MSE\), se especifican matemáticamente en la Ecuación 48, Ecuación 49 y Ecuación 50.
Por lo que existe evidencia estadística suficiente para rechazar \(H_0\) por lo que \(\beta_1 \neq 0\), hay relación lineal entre las horas de trabajo y el tamaño de lote.