Inferencias en el modelo de regresión

A lo largo del presente apartado se supondrá que es aplicable el modelo de regresión lineal (Ecuación 1):

\[\begin{align} y_i= \beta_0 + \beta_1x_i + \epsilon_i \\ \end{align} \tag{1}\]

Donde:

\[ \begin{align} &\beta_0 ~\text{y}~\beta_1 \text{son parámetros}\\ &x_i ~\text{es una constante conocida}\\ &\epsilon_i~ \text{son independientes}~ N(0,\sigma^2)\\ \end{align} \]

Inferencias sobre \(\beta_1\)

Con frecuencia, en el estudio de datos usando modelos de regresión lineal simple es importante realizar inferencias sobre \(\beta_1\) que corresponde a la pendiente de la recta de regresión planteada en Ecuación 1.

Por ejemplo, una analista de mercado o de producción que estudie la relación entres las ventas (\(y\)) y los gastos en publicidad (\(x\)) puede desear obtener una estimación del intervalo de \(\beta_1\), porque le proporciona información sobre cuantos pesos de ventas adicionales, en promedio, genera un pesos adicional de gasto en publicidad.

Estadísticamente, es importante comprobar mediante inferencia si el parámetro \(\beta_1\) es igual o diferente de cero. La razón de este interés radica en que si \(\beta_1=0\), no existe relación o asociación lineal entre \(y\) y \(x\), como se muestra a continuación:

\[\begin{align} \text{Si}~\beta_1 &= 0 \rightarrow \\ E(y) &= \beta_0 + (0)x\\ E(y) &= \beta_0 \end{align}\]

Antes de seguir discutiendo las inferencias relativas al parámetro \(\beta_1\), se debe considerar la distribución muestral de \(\hat{\beta_1}\), correspondiente al estimador puntual de \(\beta_1\)

Distribución muestral de \(\hat{\beta_1}\)

El estimador puntual \(\hat{\beta_1}\) esta dado por la Ecuación 2

\[\begin{align} \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i -\bar{x})^2} \end{align} \tag{2}\]

La distribución muestral de \(\hat{\beta_1}\) se refiere a los diferentes valores de \(\hat{\beta_1}\) que se obtendrían con un muestreo repetido cuando los niveles de la variable predictora \(x\) se mantienen constantes de una muestra a otra.

Para el modelo de regresión normal de Ecuación 1 la distribución muestral para \(\hat{\beta_1}\) es normal con la siguiente media y varianza (Ecuación 3):

\[\begin{align} E(\hat{\beta_1}) &= \beta_1\\ \\ \sigma^2(\hat{\beta_1}) &= \frac{\sigma^2}{\sum_{i=1}^n (x_i-\bar{x})^2} \end{align} \tag{3}\]

Para mostrar lo expuesto en Ecuación 3, es necesario mostrar que \(\hat{\beta_1}\) es combinación lineal de las observaciones \(y_i\). Lo anterior se expresa matemáticamente como se muestra en la Ecuación 4:

\[\begin{align} \hat{\beta_1} &= \sum_{i=1}^n k_iy_i\\ \\ \text{Donde:}&\\ \\ k_i &= \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2 } \end{align} \tag{4}\]

Para comprobar lo expresado anteriormente, se observará si la Ecuación 2 es equivalente a lo expresado en la Ecuación 4. A partir de la Ecuación 2 se expande su numerador \(\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})\) como sigue:

\[\begin{align} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) &= \sum_{i=1}^n \left[ (x_i -\bar{x})y_i - (x_i-\bar{x})\bar{y} \right] \end{align}\]

Se aplica propiedad asociativa:

\[\begin{align} \sum_{i=1}^n \left[ (x_i -\bar{x})y_i - (x_i-\bar{x})\bar{y} \right] &= \sum_{i=1}^n (x_i -\bar{x})y_i - \sum_{i=1}^n (x_i-\bar{x})\bar{y} \end{align}\]

El término \(\bar{y}\) es una constante para la sumatoria, por lo tanto:

\[\begin{align} \sum_{i=1}^n (x_i -\bar{x})y_i - \sum_{i=1}^n (x_i-\bar{x})\bar{y} &= \sum_{i=1}^n (x_i -\bar{x})y_i - \bar{y} \sum_{i=1}^n (x_i-\bar{x}) \end{align}\]

Se usa que \(\sum_{i=1}^n (x_i-\bar{x}) = 0\):

\[\begin{align} \sum_{i=1}^n (x_i-\bar{x}) &= 0 \\ \\ \sum_{i=1}^n (x_i-\bar{x}) &= \sum_{i=1}^n x_i- \sum_{i=1}^n\bar{x}\\ \\ \sum_{i=1}^n x_i- \sum_{i=1}^n\bar{x} &= \sum_{i=1}^n x_i- n\bar{x}\\ \\ \sum_{i=1}^n x_i- n\bar{x} &= \sum_{i=1}^n x_i- n\sum_{i=1}^n \frac{x_i}{n}\\ \\ \sum_{i=1}^n x_i- n\sum_{i=1}^n \frac{x_i}{n} &= \sum_{i=1}^n x_i- \sum_{i=1}^n x_i \\ \\ \sum_{i=1}^n x_i- \sum_{i=1}^n x_i &=0 \end{align}\]

Por lo tanto:

\[\begin{align} \sum_{i=1}^n (x_i -\bar{x})y_i - \bar{y} \sum_{i=1}^n (x_i-\bar{x}) &= \sum_{i=1}^n (x_i -\bar{x})y_i \end{align}\]

Llegando a:

\[\begin{align} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) &= \sum_{i=1}^n (x_i -\bar{x})y_i \end{align} \tag{5}\]

Si se reemplaza Ecuación 5 en Ecuación 2, se obtiene que:

\[\begin{align} \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n (x_i -\bar{x})^2} \end{align} \tag{6}\]

Ahora, se procede a observar si se obtiene la misma expresión de Ecuación 6 cuando se usa la Ecuación 4, de Ecuación 4 se tiene que:

\[\begin{align} \hat{\beta_1} &= \sum_{i=1}^n k_iy_i\\ \\ \text{Donde:}&\\ \\ k_i &= \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2 } \end{align}\]

Reemplazando \(ki\) en la expresión de \(\hat{\beta_1}\) se tiene que:

\[\begin{align} \sum_{i=1}^n k_iy_i &= \sum_{i=1}^n \left[ \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2} \right] y_i \end{align}\]

Resolviendo la sumatoria:

\[\begin{align} \sum_{i=1}^n \left[ \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2} \right] y_i &= \frac{\sum_{i=1}^n (x_i-\bar{x}) yi}{\sum_{i=1}^n (x_i-\bar{x})^2} \end{align}\]

Por lo que se puede expresar \(\hat{\beta_1}\) como sigue:

\[\begin{align} \hat{\beta_1} &= \frac{\sum_{i=1}^n (x_i-\bar{x}) yi}{\sum_{i=1}^n (x_i-\bar{x})^2} \end{align} \tag{7}\]

Como se observa la Ecuación 6 es igual a la Ecuación 7. Se puede observar, también, que los \(k_i\) son función de los \(x_i\), por lo que los \(k_i\) son cantidades fijas cuando \(x_i\) ha sido fijado. Con lo anterior, se comprueba que \(\hat{\beta_1}\) es combinación lineal de \(y_i\).

Los coeficientes \(k_i\) tienen propiedades importantes que se enumeran a continuación.

1. \(\sum_{i=1}^n k_i\) es igual a cero.

\[\begin{align} \sum_{i=1}^n k_i=0 \end{align} \tag{8}\]

Se puede comprobar matemáticamente la igualdad, de la Ecuación 4 se tiene que:

\[\begin{align} k_i &= \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2 } \end{align}\]

Realizando la sumatoria de los \(k_i\), se tiene que:

\[\begin{align} \sum_{i=1}^n k_i &= \sum_{i=1}^n \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2 } \end{align}\]

Resolviendo la sumatoria, se obtiene:

\[\begin{align} \sum_{i=1}^n \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2 } &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 }\sum_{i=1}^n (x_i-\bar{x}) \end{align}\]

Se aplica propiedad asociativa de la sumatoria:

\[\begin{align} \sum_{i=1}^n \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2 } &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- \sum_{i=1}^n\bar{x} \right] \end{align}\]

\(\bar{x}\) es constate para la sumatoria, por lo tanto:

\[\begin{align} \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- \sum_{i=1}^n\bar{x} \right] &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- n \bar{x} \right] \end{align}\]

Se usa la definición de \(\bar{x} = \frac{\sum_{i=1}^n x_i}{n}\):

\[\begin{align} \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- n \bar{x} \right] &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- n \frac{\sum_{i=1}^n xi}{n} \right] \end{align}\]

Se cancelan las \(n\), se llega a:

\[\begin{align} \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- n \frac{\sum_{i=1}^n xi}{n} \right] &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \left[\sum_{i=1}^n x_i- \sum_{i=1}^n xi \right] = 0 \end{align}\]

Para mostrar la propiedad se calculan \(k_1\) para el ejemplo de resistencia del motor de cohete, los cálculos de todos los \(k_i\) se muestran en la Tabla 2.

Es importante recordar el ejemplo:

Un motor de cohete se fabrica uniendo dos piezas importantes dentro de una carcasa de metal: el propulsor de encendido y el propulsor de sustentación. La resistencia al corte de la unión entre los dos tipos de propulsor es una característica de calidad importante. Se sospecha que la resistencia al corte está relacionada con la edad en semanas del lote de propulsor sustentador. Se han recopilado veinte observaciones sobre la resistencia al corte y la edad del lote correspondiente de propulsor que se muestran en la Tabla 1

Tabla 1: Datos ejemplo 1.
Observación \(i\) \(y_i\): Resistencia al corte (psi) \(x_i\): Edad (semanas)
1 2158.70 15.50
2 1678.15 23.75
3 2316.00 8.00
4 2061.30 17.00
5 2207.50 5.50
6 1708.30 19.00
7 1784.70 24.00
8 2575.00 2.50
9 2357.90 7.50
10 2256.70 11.00
11 2165.20 13.00
12 2399.55 3.75
13 1779.80 25.00
14 2336.75 9.75
15 1765.30 22.00
16 2053.50 18.00
17 2414.40 6.00
18 2200.50 12.50
19 2654.20 2.00
20 1753.70 21.50

Se usa la Ecuación 4 para el cálculo de \(k_1\).

\[\begin{align} k_i &= \frac{x_i-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2}\\ \\ k_1 &= \frac{x_1-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2}\\ \\ \bar{x} &= \frac{\sum_{i=1}^{20}x_i}{20} = 13.3625 \\ \\ &\sum_{i=1}^{20} (x_i-\bar{x})^2 = 1106.559\\ \\ k_1 &= \frac{15.50-13.3625}{1106.559}=0.001931663\\ \\ \end{align}\]

Tabla 2: \(\sum_{i=1}^n k_i\).
Observación \(i\) \(x_i\) \(x_i-\bar{x}\) \((x_i-\bar{x})^2\) \(\sum_{i=1}^{20} (x_i-\bar{x})^{2}\) \(k_i\)
1 15.5 2.1375 4.5689062 1106.559375 0.0019317
2 23.75 10.3875 107.9001562 1106.559375 0.0093872
3 8 -5.3625 28.7564063 1106.559375 -0.0048461
4 17 3.6375 13.2314062 1106.559375 0.0032872
5 5.5 -7.8625 61.8189063 1106.559375 -0.0071054
6 19 5.6375 31.7814062 1106.559375 0.0050946
7 24 10.6375 113.1564062 1106.559375 0.0096131
8 2.5 -10.8625 117.9939063 1106.559375 -0.0098165
9 7.5 -5.8625 34.3689063 1106.559375 -0.0052980
10 11 -2.3625 5.5814063 1106.559375 -0.0021350
11 13 -0.362500000000001 0.1314063 1106.559375 -0.0003276
12 3.75 -9.6125 92.4001563 1106.559375 -0.0086868
13 25 11.6375 135.4314062 1106.559375 0.0105168
14 9.75 -3.6125 13.0501563 1106.559375 -0.0032646
15 22 8.6375 74.6064062 1106.559375 0.0078057
16 18 4.6375 21.5064062 1106.559375 0.0041909
17 6 -7.3625 54.2064063 1106.559375 -0.0066535
18 12.5 -0.862500000000001 0.7439063 1106.559375 -0.0007794
19 2 -11.3625 129.1064063 1106.559375 -0.0102683
20 21.5 8.1375 66.2189062 1106.559375 0.0073539
Total - - 1106.5593750 - 0.0000000

2. \(\sum_{i=1}^n k_ix_i\) es igual a uno.

\[\begin{align} \sum_{i=1}^n k_ix_i=1 \end{align} \tag{9}\]

Se demostrará esta característica, reemplazando la Ecuación 4 en la Ecuación 9.

\[\begin{align} \sum_{i=1}^n k_ix_i &= \sum_{i=1}^n x_i \frac{x_i - \bar{x}}{\sum_{i=1}^n (x_i - \bar{x})^2}\\ \\ \sum_{i=1}^nx_i \frac{x_i - \bar{x}}{\sum_{i=1}^n (x_i - \bar{x})^2} &= \frac{\sum_{i=1}^n x_i (x_i-\bar{x})}{\sum_{i=1}^n (x_i - \bar{x})^2} \end{align}\]

Desarrollando el numerador de la fracción anterior:

\[\begin{align} \sum_{i=1}^n x_i (x_i-\bar{x}) &= \sum_{i=1}^n (x_i^2 - x_i\bar{x}) \\ \\ \sum_{i=1}^n (x_i^2 - x_i\bar{x}) &= \sum_{i=1}^n x_i^2 - \sum_{i=1}^n x_i\bar{x}\\ \\ \sum_{i=1}^n x_i^2 - \sum_{i=1}^n x_i\bar{x} &= \sum_{i=1}^n x_i^2 - \bar{x}\sum_{i=1}^n x_i\\ \\ \sum_{i=1}^n x_i^2 - \bar{x}\sum_{i=1}^n x_i &= \sum_{i=1}^n x_i^2 - \bar{x} \bar{x}n\\ \\ \sum_{i=1}^n x_i^2 - \bar{x} \bar{x}n &= \sum_{i=1}^n x_i^2 - \bar{x}^2n \end{align}\]

Desarrollando el denominador:

\[\begin{align} \sum_{i=1}^n (x_i-\bar{x})^2 &= \sum_{i=1}^n (x_i^2 - 2x_i\bar{x} + \bar{x}^2)\\ \\ \sum_{i=1}^n (x_i^2 - 2x_i\bar{x} + \bar{x}^2) &= \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2x_i\bar{x} + \sum_{i=1}^n \bar{x}^2\\ \\ \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2x_i\bar{x} + \sum_{i=1}^n \bar{x}^2 &= \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n \bar{x}^2\\ \\ \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n \bar{x}^2 &= \sum_{i=1}^n x_i^2 - 2\bar{x}n\bar{x} + n \bar{x}^2\\ \sum_{i=1}^n x_i^2 - 2\bar{x}n\bar{x} + n \bar{x}^2 &= \sum_{i=1}^n x_i^2 - 2n\bar{x}^2 + n \bar{x}^2 \\ \\ \sum_{i=1}^n x_i^2 - 2n\bar{x}^2 + n \bar{x}^2 &= \sum_{i=1}^n x_i^2 - n\bar{x}^2 \end{align}\]

Tanto el numerador como el denominador resultan ser iguales a \(\sum_{i=1}^n x_i^2 - n\bar{x}^2\) por lo que se comprueba que:

\[\begin{align}\sum_{i=1}^n k_ix_i = 1 \end{align}\]

Para mostrar la propiedad se usan los cálculos de los \(k_i\) mostrados en la Tabla 2 para el ejemplo de resistencia del motor de cohete y se comprueba la propiedad en la Tabla 3.

Tabla 3: \(\sum_{i=1}^n k_ix_i\).
Observación \(i\) \(k_i\) \(x_i\) \(k_ix_i\)
1 0.0019317 15.5 0.0299408
2 0.0093872 23.75 0.2229461
3 -0.0048461 8 -0.0387688
4 0.0032872 17 0.0558827
5 -0.0071054 5.5 -0.0390795
6 0.0050946 19 0.0967978
7 0.0096131 24 0.2307151
8 -0.0098165 2.5 -0.0245412
9 -0.0052980 7.5 -0.0397347
10 -0.0021350 11 -0.0234850
11 -0.0003276 13 -0.0042587
12 -0.0086868 3.75 -0.0325756
13 0.0105168 25 0.2629208
14 -0.0032646 9.75 -0.0318301
15 0.0078057 22 0.1717260
16 0.0041909 18 0.0754365
17 -0.0066535 6 -0.0399210
18 -0.0007794 12.5 -0.0097430
19 -0.0102683 2 -0.0205366
20 0.0073539 21.5 0.1581083
Total 0.0000000 - 1.0000000

3. \(\sum_{i=1}^n k_i^2 = \frac{1}{\sum_{i=1}^n (x_i - \bar{x})^2}\)

\[\begin{align} \sum_{i=1}^n k_i^2=\frac{1}{\sum_{i=1}^n (x_i - \bar{x})^2} \end{align} \tag{10}\]

Se procede a hacer la comprobación de la propiedad mostrada en la Ecuación 10, se eleva \(k_i\) de la Ecuación 4 al cuadrado, obteniendo:

\[\begin{align} k_i^2 &= \left[ \frac{x-\bar{x}}{\sum_{i=1}^n (x_i-\bar{x})^2}\right]^2 \end{align}\]

El cuadrado de la fracción se convierte en el numerador y el denominador al cuadrado.

\[\begin{align} k_i^2 &= \frac{(x-\bar{x})^2}{\left(\sum_{i=1}^n (x_i-\bar{x})^2 \right)^2} \end{align}\]

Se simplifica la expresión

\[\begin{align} k_i^2 &= \frac{1}{\sum_{i=1}^n (x_i-\bar{x})^2 } \end{align}\]

Normalidad

Volviendo a la distribución muestral de \(\hat{\beta_1}\) para el modelo de regresión de la Ecuación 1, la normalidad de la distribución muestral de \(\hat{\beta_1}\) se deduce inmediatamente del hecho de que \(\hat{\beta_1}\) es una combinación lineal de \(y_i\). Los \(y_i\) se distribuyen de forma normal y son independientes.

Media

El estimador puntual insesgado para \(\beta_1\) se puede hallar de la siguiente manera:

\[\begin{align} E[\hat{\beta_1}] &= E \left[ \sum_{i=1}^n k_iy_i \right]\\ \\ E \left[ \sum_{i=1}^n k_iy_i \right]&= \sum_{i=1}^n E[k_iy_i]\\ \\ \sum_{i=1}^n E[k_iy_i]\ &= \sum_{i=1}^n k_iE[y_i] \\ \\ \sum_{i=1}^n k_iE[y_i] &= \sum_{i=1}^n k_i (\beta_0+\beta_1x_i)\\ \\ \sum_{i=1}^n k_i (\beta_0+\beta_1x_i) &= \beta_0 \sum_{i=1}^n k_i + \beta_1 \sum_{i=1}^n k_ix_i \end{align}\]

De la Ecuación 8 y la Ecuación 9 se obtienen los resultados de \(\sum_{i=1}^n k_i=0\) y de \(\sum_{i=1}^n k_ix_i=1\), por lo tanto:

\[\begin{align} E[\hat{\beta_1}] &= \beta_1 \end{align} \tag{11}\]

Varianza

La varianza de \(\hat{\beta_1}\) puede deducirse de manera rápida recordando que \(y_i\) son variables aleatorias independientes, cada \(y_i\) con varianza \(\sigma^2\), y que cada \(k_i\) es una constante, obteniendo:

\[\begin{align} \sigma^2(\hat{\beta_1}) &= \sigma^2\left( \sum_{i=1}^n k_ix_i \right)\\ \\ \sigma^2\left( \sum_{i=1}^n k_ix_i \right)&= \sum_{i=1}^n k_i^2\sigma^2(y_i)\\ \\ \sum_{i=1}^n k_i^2\sigma^2(y_i) &= \sum_{i=1}^n k_i^2\sigma^2\\ \\ \sum_{i=1}^n k_i^2\sigma^2 &= \sigma^2 \sum_{i=1}^n k_i^2 \end{align}\]

De la Ecuación 10 se tiene el valor de \(\sum_{i=1}^n k_i^2 = \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2}\), por lo que:

\[\begin{align} \sigma^2(\hat{\beta_1}) &= \sigma^2 \frac{1}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{align} \tag{12}\]

Varianza estimada

Se puede estimar la varianza de la distribución muestral de \(\hat{\beta_1}\):

\[\begin{align} \sigma^2(\hat{\beta_1}) &= \frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{align}\]

Se reemplaza el parámetro \(\sigma^2\) por el MSE (cuadrados Medios del Error), un estimador insesgado para \(\sigma^2\), por lo que:

\[\begin{align} S^2(\hat{\beta_1}) &= \frac{MSE}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{align} \tag{13}\]

El estimador puntual \(S^2(\hat{\beta_1})\) es un estimador insesgado para \(\sigma^2(\hat{\beta_1})\)

Distribución muestral de \(\frac{\hat{\beta_1}-\beta_1}{S(\hat{\beta_1})}\)

Dado que \(\hat{\beta_1}\) sigue un distribución normal, se puede establecer que el estadístico \(\frac{\hat{\beta_1}-\beta_1}{\sigma(\hat{\beta_1})}\) es una variable normal estándar. \(\sigma(\hat{\beta_1})\) se estima usando \(S(\hat{\beta_1})\) y por lo tanto, es de interés establecer la distribución muestral de \(\frac{\hat{\beta_1}-\beta_1}{S(\hat{\beta_1})}\).

Cuando un estadístico está estandarizado pero el denominador es una desviación estándar estimada (\(S(\hat{\beta_1})\)) en lugar de la desviación estándar real (\(\sigma(\hat{\beta_1})\)) se denomina estadístico estudentizado. Un importante teorema estadístico afirma lo siguiente sobre la estadístico estudentizado:

\[\begin{align} \frac{\hat{\beta_1}-\beta_1}{s(\hat{\beta_1})} \sim t~ con~ n-2~ grados~ de~ libertad \end{align} \tag{14}\]

Los \(n-2\) grados de libertad son debido a la estimación de dos parámetros (\(\beta_0~y~\beta_1\)) para el modelo de regresión.

Intervalo de confianza para \(\beta_1\)

Para estimar \(\beta_1\) mediante intervalo de confianza se puede usar la siguiente expresión:

\[\begin{align} \hat{\beta_1} \pm t_{1-\frac{\alpha}{2}, n-2}~S(\hat{\beta_1}) \end{align} \tag{15}\]

Ejemplo: cálculo de intervalo de confianza para \(\beta_1\)

La empresa Toluca Company fabrica equipos de refrigeración, así como muchas piezas de repuesto. En el pasado, una de las piezas de recambio se fabricaba periódicamente en lotes de distintos tamaños. Cuando se emprendió un programa de mejora de costos, los responsables de la empresa quisieron determinar el tamaño de lote óptimo para producir esta pieza. La producción de esta pieza implica la puesta a punto del proceso de producción (que debe realizarse sea cual sea el tamaño del lote) y operaciones de mecanizado y montaje. Un dato clave para que el modelo determinara el tamaño de lote óptimo fue la relación entre el tamaño de lote y las horas de trabajo necesarias para producir el lote. Para determinar esta relación, se utilizaron datos sobre el tamaño de lote y las horas de trabajo de 25 series de producción recientes. Las condiciones de producción fueron estables durante el periodo de seis meses en el que se realizaron las 25 series y se esperaba que siguieran siendo las mismas durante los tres años siguientes, correspondiente al periodo de planificación para el que se estaba llevando a cabo el programa de mejora de costos.

Los datos sobre tamaño de lote y las horas de trabajo de encuentran en la Tabla 4

Tabla 4: Ejemplo Toluca Company.
Observación \(i\) \(x_i\): Tamaño de lote \(y_i\): Horas de trabajo
1 80 399
2 30 121
3 50 221
4 90 376
5 70 361
6 60 224
7 120 546
8 80 352
9 100 353
10 50 157
11 40 160
12 70 252
13 90 389
14 20 113
15 110 435
16 100 420
17 30 212
18 50 268
19 90 377
20 110 421
21 30 273
22 90 468
23 40 244
24 80 342
25 70 323

Para resolver este problema es necesario conocer los coeficientes de regresión estimados, teniendo la ecuación de regresión como sigue:

\[\begin{align} y = 62.37 + 3.57x \end{align}\]

Usando la Ecuación 15 tenemos que el intervalo de confianza para \(\hat{\beta_1}\) es:

\[\begin{align} \hat{\beta_1} \pm t_\left(1-\frac{\alpha}{2}, n-2\right)S(\beta_1) \end{align}\]

Para el cálculo de \(S(\hat{{\beta_1}})\), se usa la Ecuación 13, obteniendo:

\[\begin{align} S^2(\hat{\beta_1}) &= \frac{MSE}{\sum_{i=1}^n(x_i-\bar{x})^2} \end{align}\]

Para el modelo de regresión lineal simple los cuadrados medios del error, \(MSE\), se calculan dividiendo la suma de cuadrados del error, \(SSE\), entre los grados de libertad. \(n-2\), por lo que:

\[\begin{align} MSE = \frac{SSE}{n-2} \end{align} \tag{16}\]

\[\begin{align} SSE = \sum_{i=1}^n (y_i - \hat{y_i})^2 \end{align} \tag{17}\]

Se muestra en la , el cálculo de \(SSE\) se muestra en la Tabla 5

Tabla 5: SSE - Ejemplo Toluca Company.
Observación \(i\) \(x_i\): Tamaño de lote \(y_i\): Horas de trabajo Predichos \(\hat{y_i}\) \((y_i - \hat{y_i})^2\)
1 80 399 347.98202020202 2.602834e+03
2 30 121 169.471919191919 2.349527e+03
3 50 221 240.87595959596 3.950538e+02
4 90 376 383.68404040404 5.904448e+01
5 70 361 312.28 2.373638e+03
6 60 224 276.57797979798 2.764444e+03
7 120 546 490.790101010101 3.048133e+03
8 80 352 347.98202020202 1.614416e+01
9 100 353 419.386060606061 4.407109e+03
10 50 157 240.87595959596 7.035177e+03
11 40 160 205.173939393939 2.040685e+03
12 70 252 312.28 3.633678e+03
13 90 389 383.68404040404 2.825943e+01
14 20 113 133.769898989899 4.313887e+02
15 110 435 455.088080808081 4.035310e+02
16 100 420 419.386060606061 3.769216e-01
17 30 212 169.471919191919 1.808638e+03
18 50 268 240.87595959596 7.357136e+02
19 90 377 383.68404040404 4.467640e+01
20 110 421 455.088080808081 1.161997e+03
21 30 273 169.471919191919 1.071806e+04
22 90 468 383.68404040404 7.109181e+03
23 40 244 205.173939393939 1.507463e+03
24 80 342 347.98202020202 3.578457e+01
25 70 323 312.28 1.149184e+02
Total - - - 5.482546e+04

De la Tabla 5 se obtiene que que \(SSE = 54825.46\). Para las \(25\) observaciones, los grados de libertad del error son \(n-2 = 25-2 = 23\), por lo que el \(MSE=2383.716\).

En la Tabla 6 se observan los cálculos para \(\sum_{i=1}^n (x_i - \bar{x})^2\)

Tabla 6: \(\sum_{i=1}^n (x_i-\bar{x})^2\) Toluca Company.
Observación \(i\) \(x_i\): Tamaño de lote \(x_i-\bar{x}\) \((x_i-\bar{x})^2\)
1 80 10 100
2 30 -40 1600
3 50 -20 400
4 90 20 400
5 70 0 0
6 60 -10 100
7 120 50 2500
8 80 10 100
9 100 30 900
10 50 -20 400
11 40 -30 900
12 70 0 0
13 90 20 400
14 20 -50 2500
15 110 40 1600
16 100 30 900
17 30 -40 1600
18 50 -20 400
19 90 20 400
20 110 40 1600
21 30 -40 1600
22 90 20 400
23 40 -30 900
24 80 10 100
25 70 0 0
Total - - 19800

Se observa en Tabla 6 que \(\sum_{i=1}^n (x_i - \bar{x})^2 = 19800\), por lo que se podría calcular \(S(\hat{\beta})\) de la siguiente manera:

\[\begin{align} S^2(\hat{\beta_1}) = \frac{2383.716}{19800} = 0.120389637\\ \\ S(\hat{\beta_1}) = 0.3469721847 \end{align}\]

Es necesario encontrar el cuantil t de student que cumpla con una probabilidad de \(\left( 1-\frac{\alpha}{2} \right)\) y \(n-2\) grados de libertad. Si se buscan en tablas estadísticas como la que se encuentra en el siguiente enlace: Tablas estadísticas

Si el nivel de significancia \(\alpha=0.05\) el cuantil de la distribución t de student a utilizar es:

\[\begin{align} t_{1-\frac{\alpha}{2},~n-2} = t_{0.975,~23}=2.0687 \end{align}\]

Por lo el intervalo de confianza resulta en:

\[\begin{align} \hat{\beta_1} \pm t_\left(1-\frac{\alpha}{2}, n-2\right)S(\beta_1) &= 3.57 \pm 2.0687(0.3469721847)\\ \\ 2.852218642 &\leq \beta_1 \leq 4.287781358 \end{align}\]

Así, con un nivel de confianza del \(0.95\), se estima que el número medio de horas de trabajo aumenta entre \(2.85\) y \(4.29\) horas por cada unidad adicional en el lote.

Test concercientes a \(\beta_1\)

Dado que \(\frac{\hat{\beta_1 - \beta_1}}{S(\hat{\beta_1})}\) sigue una distribución \(t\) con \(n-2\) grados de libertad, Las pruebas estadísticas relativas a \(\beta_1\) pueden realizarse usando una distribución \(t\). Los pasos a seguir son los siguientes (en el caso de una prueba de dos colas):

Planteamiento de hipótesis

Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_1\)

\[\begin{align} H_0&: \beta_1 = 0\\ \\ H_1&: \beta_1 \neq 0 \end{align} \tag{18}\]

Estadístico de prueba

El estadístico de prueba es el siguiente:

\[\begin{align} t_0 = \frac{\hat{\beta_1}}{S(\hat{\beta_1})} \end{align} \tag{19}\]

Estadístico de referencia

El estadístico de referencia corresponde a un cuantil de la distribución t de student que cumpla:

\[\begin{align} t_{1-\frac{\alpha}{2},~n-2} \end{align} \tag{20}\]

Se rechaza \(H_0\) si:

\[\begin{align} |t_0| > t_{1-\frac{\alpha}{2},~n-2} \end{align} \tag{21}\]

Ejemplo: test para \(\beta_1\) ejemplo Toluca Company

Los datos sobre tamaño de lote y las horas de trabajo para el ejemplo de Toluca Company de encuentran en la Tabla 4.

Se plantean las hipótesis:

\[\begin{align} H_0&: \beta_1 = 0\\ H_1&: \beta_1 \neq 0 \end{align}\]

Se calcula el estadístico de prueba \(t_0\), del cálculo del intervalo de confianza para \(\beta_1\) se sabe que:

\[\begin{align} \hat{\beta_1} &= 3.57\\ \\ S(\hat{\beta_1}) &= 0.3469721847 \end{align}\]

Por lo que el estadístico de prueba sería:

\[\begin{align} t_0 = \frac{3.57}{0.3469721847} =10.2890092 \end{align}\]

Si \(\alpha=0.05\) el cuantil de la distribución t de student es:

\[\begin{align} t_{1-\frac{\alpha}{2},~n-2} = t_{0.975,~23}= 2.0687 \end{align}\]

Realizando la comprobación, se encuentra que:

\[\begin{align} t_0 = 10.2890092 > t_{0.975,~23}= 2.0687 \end{align}\]

Por lo que existe evidencia estadística suficiente para rechazar \(H_0\), por lo que \(\beta_1 \neq 0\), existe relación lineal entre las horas de trabajo y el tamaño del lote.

Solución de ejemplo Toluca Company en R para el test de \(\beta_1\)

Se solucionará en R el test para \(\beta_1\) en ejemplo de Toluca Company

# Diligenciar los datos de las observaciones reales como vectores
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)

#Planteamiento del modelo de datos
modelo <- lm(horas~tamano)

# Extracción de la información del modelo
summary(modelo)

Call:
lm(formula = horas ~ tamano)

Residuals:
    Min      1Q  Median      3Q     Max 
-83.876 -34.088  -5.982  38.826 103.528 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   62.366     26.177   2.382   0.0259 *  
tamano         3.570      0.347  10.290 4.45e-10 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 48.82 on 23 degrees of freedom
Multiple R-squared:  0.8215,    Adjusted R-squared:  0.8138 
F-statistic: 105.9 on 1 and 23 DF,  p-value: 4.449e-10
# Obtención del cuantil teórico
qt((1-(0.05/2)), 23)
[1] 2.068658

Según los resultados para \(\beta_1\) el estadístico de prueba \(t_0\) se encuentra en la columna t-value como sigue:

\[\begin{align} t_0= 10.290 \end{align}\]

Y el cuantil teórico para la distribución t Student cuando el nivel de significancia es \(\alpha = 0.05\) es igual a:

\[\begin{align} t_{1-\frac{\alpha}{2},~n-2} = t_{1-\frac{0.05}{2},~23} = 2.068658 \end{align}\]

Como:

\[\begin{align} |t_0| = 10.290 \geq t_{1-\frac{\alpha}{2},~n-2}= 2.068658 \end{align}\]

Existe evidencia estadística suficiente para rechazar \(H_0\), entonces, \(\beta_1 \neq 0\); existe relación lineal entre las horas de trabajo y el tamaño del lote.

Inferencias sobre \(\beta_0\)

Existen algunas ocasiones en donde se desea realizar inferencias sobre \(\beta_0\), intercepto de la recta de regresión. Esto ocurre cuando en alcance del modelo incluye a \(x=0\).

Distribución muestral de \(\hat{\beta_0}\)

El estimador puntual \(\hat{\beta_0}\) se ha visto en contenidos anteriores, y está dado como sigue:

\[\begin{align} \hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x} \end{align} \tag{22}\]

La distribución muestral de \(\hat{\beta_0}\) se refiera a los diferentes valores que se obtendrían con un muestreo repetido cuando los niveles de la variable predictora \(x\) se mantienen constantes de una muestra a otra.

Para el modelo de regresión lineal simple la distribución muestral para \(\hat{\beta_0}\) es normal, con media y varianza como siguen:

\[\begin{align} E[\hat{\beta_0}] &= \beta_0\\ \\ \sigma^2 (\hat{\beta_0}) &= \sigma^2 \left[ \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right] \end{align} \tag{23}\]

La normalidad de la distribución muestral de \(\hat{\beta_0}\) se deduce porque \(\hat{\beta_0}\), al igual que \(\hat{\beta_1}\) , es una combinación lineal de las observaciones \(y_i\). Los resultados de la media y la varianza de la distribución muestral de \(\hat{\beta_0}\) pueden obtenerse de forma similar a los de \(\hat{\beta_1}\).

Un estimador puntual para \(\sigma^2(\hat{\beta_0})\) es obtenido reemplazando \(\sigma^2\) por su estimador puntual \(MSE\), por lo tanto:

\[\begin{align} S^2 (\hat{\beta_0}) &= MSE \left[ \frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right] \end{align} \tag{24}\]

La raíz cuadrada \(s(\hat{\beta_0})\) es un estimador de \(\sigma(\hat{\beta_0})\)

Distribución muestral de \(\frac{\hat{\beta_0}-\beta_0}{S(\hat{\beta_0})}\)

Análogo a lo mostrado en la Ecuación 14 para \(\hat{\beta_1}\), un teorema para \(\hat{\beta_0}\) establece que:

\[\begin{align} \frac{\hat{\beta_0}-\beta_0}{S(\hat{\beta_0})} \sim~t~con~(n-2)~grados~de~libertad \end{align} \tag{25}\]

Por lo tanto, intervalos de confianza para \(\beta_0\) y test concernientes a \(\beta_0\) pueden realizarse usando una distribución de probabilidad t.

Intervalo de confianza para \(\beta_0\)

Un intervalo de confianza al $(1-) se obtiene usando la ecuación Ecuación 26:

\[\begin{align} \hat{\beta_0} \pm t_{1-\frac{\alpha}{2},~n-2}~S(\hat{\beta_0}) \end{align} \tag{26}\]

Test concercientes a \(\beta_0\)

Dado que \(\frac{\hat{\beta_0 - \beta_0}}{S(\hat{\beta_0})}\) sigue una distribución \(t\) con \(n-2\) grados de libertad, Las pruebas estadísticas relativas a \(\beta_0\) pueden realizarse usando una distribución \(t\). Los pasos a seguir son los siguientes (en el caso de una prueba de dos colas):

Planteamiento de hipótesis

Las hipótesis a plantear cuando se realiza una prueba de hipótesis de dos colas para \(\beta_1\)

\[\begin{align} H_0&: \beta_0 = 0\\ \\ H_1&: \beta_0 \neq 0 \end{align} \tag{27}\]

Estadístico de prueba

El estadístico de prueba es el siguiente:

\[\begin{align} t_0 = \frac{\hat{\beta_0}}{S(\hat{\beta_0})} \end{align} \tag{28}\]

Estadístico de referencia

El estadístico de referencia corresponde a un cuantil de la distribución t de student que cumpla:

\[\begin{align} t_{1-\frac{\alpha}{2},~n-2} \end{align} \tag{29}\]

Se rechaza \(H_0\) si:

\[\begin{align} |t_0| > t_{1-\frac{\alpha}{2},~n-2} \end{align} \tag{30}\]

Algunas consideraciones para hacer inferencias concernientes a \(\beta_0\) y \(\beta_1\)

Efectos de desviaciones de la normalidad

Si las distribuciones de probabilidad de \(y\) no son exactamente normales pero no se alejan mucho, las distribuciones muestrales de \(\hat{\beta_0}\) y \(\hat{\beta_1}\) serán aproximadamente normales, y el uso de la distribución \(t\) proporcionará aproximadamente el nivel de significancia o coeficiente de confianza especificados. Incluso si las distribuciones de \(y\) distan mucho de ser normales, los estimadores \(\hat{\beta_0}\) y \(\hat{\beta_1}\) suelen tener la propiedad de normalidad asintótica: sus distribuciones se aproximan a la normalidad en condiciones muy generales a medida que aumenta el tamaño de la muestra. Por lo tanto, con muestras suficientemente grandes, los intervalos de confianza y las reglas de decisión dadas anteriormente siguen siendo aplicables incluso si las distribuciones de probabilidad de \(y\) se alejan de la normalidad. Para muestras grandes, el valor \(t\) se sustituye, por supuesto, por el valor \(z\) para la distribución normal estándar.

Interpretación del nivel de significancia y riesgos de error

Dado que el modelo de regresión supone que las \(x_i\) son constantes conocidas, el, coeficiente de confianza y los riesgos de errores se interpretan con respecto a la toma de muestras repetidas en las que las observaciones \(x\) se mantienen en los mismos niveles que en la muestra observada. Por ejemplo, construimos un intervalo de confianza para \(\beta_1\), con coeficiente de confianza \(0.95\) en el ejemplo de la empresa Toluca. Este coeficiente se interpreta en el sentido de que si se toman muchas muestras independientes en las que los niveles de \(x\) (los tamaños de lote) son los mismos que en el conjunto de datos y se construye un intervalo de confianza del \(95\%\) para cada muestra, el \(95\%\) de los intervalos contendrán el valor verdadero de \(\beta_1\).

Distancia entre los niveles de \(x\)

Si se revisan las ecuaciones Ecuación 12 y Ecuación 23 para las varianzas de \(\hat{\beta_1}\) y \(\hat{\beta_0}\), respectivamente, indican que para \(n\) y \(\sigma^2\) dados, estas varianzas se ven afectadas por el espaciado de los niveles \(x\) en los datos observados. Por ejemplo, cuanto mayor es la dispersión de los niveles \(x\), mayor es \(\sum_{i=1}^n (x_i - \bar{x})^2\) y menor es la varianza de \(\hat{\beta_1}\). Las observaciones pueden espaciarse en experimentos de manera controlada.

Estimación de \(E(Y_h)\)

Un objetivo habitual en el análisis de regresión es estimar la media de una o varias distribuciones de probabilidad de \(y\). Por ejemplo, un estudio de la relación entre el nivel de remuneración del trabajo a destajo \((x)\) y la productividad de los trabajadores \((y)\).La productividad media en los niveles alto y medio del salario puede ser de especial interés para analizar los beneficios obtenidos de un aumento del salario.

Sea \(x_h\) el nivel de \(x\) para el que deseamos estimar la respuesta media. \(x_h\) puede ser un valor que ocurrió en la muestra, o puede ser algún otro valor de la variable predictora dentro del ámbito del modelo. La respuesta media cuando \(x = x_h\) se denota por \(E~(y_h)\). La ecuación Ecuación 31 nos da el estimador puntual \(\hat{y_h}\) de \(E~(y_h)\):

\[\begin{align} \hat{y_h} = \hat{\beta_0} + \hat{\beta_1}x_h \end{align} \tag{31}\]

Distribución muestral de \(\hat{y_h}\)

La distribución muestral de \(\hat{y_h}\) se refiere a los diferentes valores que se obtendrían de \(y_h\) con un muestreo repetido cuando los niveles de la variable predictora \(x\) se mantienen constantes de una muestra a otra. La distribución muestral para \(y_h\) es normal, con media y la varianza que se muestran en la Ecuación 34

\[\begin{align} E(\hat{y_h}) &= E(y_h) \\ \\ \sigma^2(\hat{y_h}) &= \sigma^2 \left[ \frac{1}{n} + \frac{(x_h - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2}\right] \end{align} \tag{32}\]

Si se sustituye \(\sigma^2\) por \(MSE\) en la Ecuación 34, se obtiene \(S^2(\hat{y_h})\), que corresponde a la varianza estimada para \(\hat{y_h}\), se muestra el resultado en la Ecuación 35

\[\begin{align} S^2(\hat{y_h}) &= MSE \left[ \frac{1}{n} + \frac{(x_h - \bar{x})^2}{\sum_{i=1}^n (x_i - \bar{x})^2} \right] \end{align} \tag{33}\]

La estimación de la desviación estándar de \(\hat{y_h}\) es \(S(\hat{y_h})\), correspondiente a la raíz cuadrada de \(S^2(\hat{y_h})\)

Distribución muestral para \(\frac{\hat{y_h}-E(y_h)}{s(\hat{y_h})}\)

Análogo a lo mostrado en la Ecuación 14, \(\frac{\hat{y_h}-E(y_h)}{s(\hat{y_h})}\) sigue una distribución \(t\) como sigue en la Ecuación 34

\[\begin{align} \frac{\hat{y_h}-E(y_h)}{s(\hat{y_h})} \sim~t~ con~ n-2~ grados~ de~ libertad \end{align} \tag{34}\]

Por lo tanto, todas las inferencias relativas a \(E(y_h)\) se realizan de la forma habitual con la distribución \(t\). Ilustramos la construcción de intervalos de confianza, ya que en la práctica se utilizan con más frecuencia que las pruebas.

Intervalo de confianza para \(E(y_h)\)

Un intervalo de confianza para \(E(y_h)\) se construye usando la distribución \(t\) de la siguiente manera (Ecuación 35):

\[\begin{align} \hat{y_h} \pm t_{1-\frac{\alpha}{2}}S(\hat{y_h}) \end{align} \tag{35}\]

Pronóstico de una nueva observación

Consideremos ahora el pronóstico de una nueva observación \(y\) correspondiente a un nivel dado \(x\) de la variable predictora. A continuación se presentan tres ejemplos en los que es necesario predecir una nueva

  1. En el ejemplo de la empresa Toluca, el próximo lote a producir consta de 100 unidades y la dirección desea predecir el número de horas de trabajo para este lote en particular.

  2. Un economista ha estimado la relación de regresión entre las ventas de la empresa y el número de personas de 16 años o más a partir de los datos de los últimos 10 años. A partir de una proyección demográfica fiable del número de personas de 16 años o más para el próximo año, el economista desea pronosticar las ventas de las empresas del próximo año.

  3. Un responsable de admisiones de una universidad ha estimado la relación de regresión entre el promedio de bachillerato de los estudiantes admitidos y el promedio del primer año de universidad. El responsable de admisiones desea pronosticar el promedio del primer año de universidad de un solicitante cuya nota media de bachillerato es 3,5 como parte de la información en la que se basará la decisión de admisión.

La nueva observación sobre \(y\) que debe predecirse se considera el resultado de un nuevo ensayo, independiente de los ensayos en los que se basa el análisis de regresión. Se denota el nivel de \(x\) para el nuevo ensayo como \(X_h\) y la nueva observación sobre \(y\) como \(y_{h(n)}\), Por supuesto, se supone que el modelo de regresión subyacente aplicable a los datos de la muestra básica sigue siendo apropiado para la nueva observación.

La distinción entre la estimación de la respuesta media \(E(Y_h)\), analizada en la sección anterior, y el pronóstico de una nueva respuesta \(Y_{h(n)}\), analizada ahora, es básica. En el primer caso, estimamos la media de la distribución de \(y\). En el presente caso, pronosticamos un resultado individual extraído de la distribución de \(y\). Por supuesto, la gran mayoría de los resultados individuales se desvían de la respuesta media, y esto debe tenerse en cuenta en el procedimiento de pronostico de \(Y_{h(n)}\).

Intervalo de pronóstico para \(y_{h(n)}\) con parámetros conocidos.

Se realiza un ejemplo para el caso en el que el responsable de admisiones de una universidad desea pronosticar el promedio del primer año de la universidad a partir de su nota promedio del bachillerato. Los parámetros relevantes del modelo de regresión conocidos son:

\[\begin{align} \beta_0 &= 0,10\\ \\\beta_1 &= 0,95\\ \\ E[y] &= 0,10 + 0,95x\\ \\ \sigma&= 0,12 \end{align}\]

El responsable de admisiones está analizando aun solicitante de nuevo ingreso cuyo promedio en bachillerato fue de \(y_{h(n)} = 3,50\). El promedio del aspirante según el modelo de datos corresponde a:

\[\begin{align} E[y_{h(n)}] &= 0,10 +0,95(3,5)\\ \\ E[y_{h(n)}] &= 3,425 \end{align}\]

En Figura 1 se observa la distribución de probabilidad de \(y\) para \(x_{h(n)}=3,5\),y su desviación típica de \(\sigma= 0,12\).

Figura 1: Distribución de probabilidad de \(y\) cuando \(x_{h(n)}=3.425\)

Si se desea pronosticar la nota promedio universitaria del solicitante cuya nota media de bachillerato es \(x_{h(n)} = 3,5\) estará entre:

\[\begin{align} E[y_{h(n)}] &\pm 3\sigma\\ \\ 3,425 &\pm 3(0,12)\\ \\ 3,065 \leq~ & y_{h(n)} \leq 3,785 \end{align}\]

Dado que el \(99,7\%\) del área de una distribución de probabilidad normal cae dentro de tres desviaciones estándar de la media, la probabilidad es de \(0,997\) de que este intervalo de predicción dé una predicción correcta para el solicitante con un GPA de 3,5 en el instituto. Aunque los límites de predicción aquí son bastante amplios, por lo que la predicción no es demasiado precisa, el intervalo de predicción indica al responsable de admisiones que se espera que el solicitante alcance al menos un 3,0 de nota media en el primer año de universidad.

Intervalo de pronóstico para \(y_{h(n)}\) con parámetros desconocidos.

Los límites de predicción para una nueva observación \(y_{h(n)}\) en un nivel dado de \(x_h\) se obtienen teniendo en cuenta que:

\[\begin{align} \frac{y_{h(n)} - \hat{y_{h}}}{S(pred)} ~ \sim ~t~ con~ n-2~ grados~ de~ libertad \end{align} \tag{36}\]

Un intervalo de confianza para la nueva observación \(y_{h(new)}\) se calcula como sigue:

\[\begin{align} \hat{y_h} \pm t_{1-\frac{\alpha}{2},~n-2}~S(pred) \end{align} \tag{37}\]

Un estimador insesgado para \(\sigma^2(pred)\) es:

\[\begin{align} S^2(pred)= MSE + s^2(\hat{y_h}) \end{align} \tag{38}\]

Usando la Ecuación 35, se tiene:

\[\begin{align} S^2(pred)= MSE \left[ 1 + \frac{1}{n} + \frac{(x_h - \bar{x})^2}{\sum_{i=1}^n (x_i-\bar{x})^2} \right] \end{align} \tag{39}\]

Predicción e intervalo de predicción en ´´R´´

# Diligenciar los datos de las observaciones reales como vectores
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)
datos <- data.frame(tamano,horas)

#Planteamiento del modelo de datos
modelo <- lm(horas~tamano, data = datos)

#Nuevos datos de la variable regresora para prediccion
tamano_n <- c(35,45,48,59,107)
tamano_n <-data.frame(tamano_n)
colnames(tamano_n)[colnames(tamano_n)=="tamano_n"] <- "tamano"

#Prediccion
prediccion <- predict(modelo, newdata = tamano_n, interval="prediction")
prediccion
       fit       lwr      upr
1 187.3229  81.30465 293.3412
2 223.0249 118.47466 327.5752
3 233.7356 129.53325 337.9379
4 273.0078 169.70673 376.3088
5 444.3775 338.00989 550.7451

Enfoque de análisis de varianza para el análisis de regresión

El Análisis de Varianza (ANOVA) en el contexto de un modelo de regresión lineal simple se utiliza para descomponer la variabilidad total en los datos en componentes que pueden ser explicados por el modelo y aquellos que no pueden ser explicados (residuales). Esto permite evaluar la significancia estadística del modelo, es decir, si la relación entre la variable dependiente y la independiente es lo suficientemente fuerte como para no ser atribuida al azar, esto es, evaluar si la variable regresora \(x\) tiene un efecto significativo en la variable respuesta \(y\). El enfoque del análisis de la varianza será más útil cuando abordemos los modelos de regresión múltiple y otros tipos de modelos estadísticos lineales.

Procedimiento para llevar a cabo Análisis de Varianza aplicado a un modelo de regresión lineal simple.

1. Planteamiento de las Hipótesis.

Las hipótesis correspondientes al análisis de varianza aplicado a un modelo de regresión lineal simple se muestran en la Ecuación 40

\[\begin{align} H_0: \beta_1 = 0 \\ \\ H_1: \beta_1 \ne 0 \end{align} \tag{40}\]

2. Descomposición de la variabilidad total. Cálculo de sumas de cuadrados \(SS\).

Se descompone la variabilidad total representada por la Suma de Cuadrados Total \(SST\) entre las sumas de cuadrados del Modelo o de la Regresión \(SSR\) y la Suma de Cuadrados del Error \(SSE\). Lo que se expresa en la Ecuación 41.

\[\begin{align} SST &= SSR + SSE \\ \\ SST&: suma~de~cuadrados~total\\ SSR&: suma~de~cuadrados~de~la~regresión~o~del~modelo\\ SSE&: suma~de~cuadrados~del~error\\ \end{align} \tag{41}\]

Las especificaciones matemáticas para los cálculos de la Ecuación 41, se especifican en la Ecuación 42, Ecuación 43 y Ecuación 44.

\[\begin{align} SST &= \sum_{i=1}^n (y_i - \bar{y})^2 \end{align} \tag{42}\]

\[\begin{align} SSR &= \sum_{i=1}^n (\hat{y_i} - \bar{y})^2 \end{align} \tag{43}\]

\[\begin{align} SSE &= \sum_{i=1}^n (y_i - \hat{y_i})^2 \end{align} \tag{44}\]

3. Cálculo de grados de libertad \(DF\)

Se calculan los grados de libertad para el total \(DF_T\), los grados de libertad para la regresión \(DF_R\) y los grados de libertad para el error \(DF_E\), se especifican matemáticamente en la Ecuación 45, Ecuación 46 y Ecuación 47.

\[\begin{align} DF_T &= n-1 \end{align} \tag{45}\]

\[\begin{align} DF_R &= 1 \end{align} \tag{46}\]

\[\begin{align} DF_E &= n-2 \end{align} \tag{47}\]

4. Cálculo de Cuadrados Medios \(MS\)

Se calculan los cuadrados medios para el total \(MST\), los cuadrados medios para la regresión \(MSR\) y los cuadraodos medios para el error \(MSE\), se especifican matemáticamente en la Ecuación 48, Ecuación 49 y Ecuación 50.

\[\begin{align} MST = \frac{SST}{DF_T} \end{align} \tag{48}\]

\[\begin{align} MSR = \frac{SSR}{DF_R} \end{align} \tag{49}\]

\[\begin{align} MSE = \frac{SSE}{DF_E} \end{align} \tag{50}\]

5. Cálculo estadístico de prueba \(F_0\)

El estadístico de prueba \(F_0\) para la prueba de hipótesis se muestra en la Ecuación 52.

\[\begin{align} F_0 = \frac{MSR}{MSE} \end{align} \tag{51}\]

5. Cuantiles teóricos

Para un nivel de significancia \(\alpha\) El cuantil teórico corresponde a \(F_{\alpha,~DF_R,~DF_E}\). Por lo que rechazamos \(H_0\) si:

\[\begin{align} F_0 > F_{\alpha,~DF_R,~DF_E} \end{align} \tag{52}\]

Solución del problema de Toluca Company en R.

# Variable regresora
tamano <- c(80,30,50,90,70,60,120,80,100,50,40,70,90,20,110,100,30,50,90,110,30,90,40,80,70)

# Variable respuesta
horas<- c(399,121,221,376,361,224,546,352,353,157,160,252,389,113,435,420,212,268,377,421,273,468,244,342,323)

# Modelo regresión lineal
modelo <- lm(horas~tamano)

# Análisis de varianza ANOVA
anova <- aov(modelo)
summary(anova)
            Df Sum Sq Mean Sq F value   Pr(>F)    
tamano       1 252378  252378   105.9 4.45e-10 ***
Residuals   23  54825    2384                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
# Cuantil teórico para nivel de significancia 0.05
qf(0.05,1,23, lower.tail = FALSE)
[1] 4.279344

En la solución en R se encuentra que:

\[\begin{align} F_0 &= 105,9 > F_{0.05,1,23} = 4,279344 \end{align}\]

Por lo que existe evidencia estadística suficiente para rechazar \(H_0\) por lo que \(\beta_1 \neq 0\), hay relación lineal entre las horas de trabajo y el tamaño de lote.