Modelo de regresión lineal simple
Definición del modelo
En este apartado del curso, se estudiará el modelo de Regresión Lineal Simple, esto es, un modelo con un único regresor \(x\) relacionado con una variable respuesta \(y\), la relación corresponde a una línea recta. El modelo de regresión lineal simple es el siguiente:
\[\begin{equation} y_i= \beta_0 + \beta_1x_i + \epsilon_i \\ \end{equation} \tag{1}\]
\[\begin{align} &\text{Donde:}\\ &y_i: \text{ i-ésima observación de la variable respuesta}\\ &\beta_0: \text{parámetro que representa el intercepto de la recta}\\ &\beta_1: \text{parámetro que representa la pendiente de la recta}\\ &x_i:\text{i-ésima observación de la variable regresora, predictora}\\ &\epsilon_i: \text{componente aleatorio del error} \end{align}\]
\(\beta_0\) y \(\beta_1\) corresponden a constantes desconocidas. Los errores se asumen con media muestral cero y varianza desconocida \(\sigma^2\). Adicionalmente se asume que los errores no están correlacionados. Esto significa que el valor de un error no depende del valor de cualquier otro error. Matemáticamente se resume:
\[\begin{align} &\text{}\\ &E[\epsilon_1]=0\\ &Var(\epsilon_1)=\sigma^2\\ &\epsilon_i~y~\epsilon_j\text{no correlacionados}\\ &Cov(\epsilon_i,~\epsilon_j)=0~\forall~i,j~;~i\neq j~; ~i,j=1,2,...,n \end{align}\]
El modelo de regresión planteado en la Ecuación 1 se dice simple, lineal en los parámetros, y lineal en la variable regresora o predictora. Es simple porque tiene una sola variable predictora o regresora, es lineal en los parámetros porque ninguno de estos (\(\beta_0,~\beta_1\)) aparece como exponente o está multiplicado o dividido por otro parámetro. Y es lineal en la variable predictora porque está variable aparece elevada a la primera potencia. Los modelos lineales en sus parámetros y en la variable predictora son llamados Modelos de primer orden.
Características importantes del modelo
1. Variable respuesta \(y_i\)
La i-ésima observación para la variable respuesta \(y_i\) es la suma de dos componentes:
- El término constante \(\beta_0 + \beta_1x_i\)
- El término aleatorio \(\epsilon_i\)
Por lo tanto \(y_i\) es una variable aleatoria
2. Valor esperado de la variable respuesta \(E[y_i]\)
\[\begin{equation} E[y_i]=E[\beta_0 + \beta_1x_i+\epsilon_i] \end{equation} \tag{2}\]
Se pueden usar algunas propiedades del valor esperado en la Ecuación 2 y obtenemos:
\[\begin{align} E[y_i]&=E[\beta_0 + \beta_1x_i+\epsilon_i] \rightarrow \\ E[y_i]&=E[\beta_0] + E[\beta_1x_i]+E[\epsilon_i]~;~ E[\epsilon_0]=0 \therefore \\ E[y_i]&=\beta_0 + \beta_1E[x_i] \\ \end{align}\]
Por lo tanto, la variable respuesta \(y_i\) para el i-ésimo valor de \(x\), \(x_i\), procede de una distribución de probabilidad cuya media es \(E[y_i]\)
\[\begin{equation} E[y_i]=\beta_0 + \beta_1x_i \end{equation} \tag{3}\]
Se define, entonces, la función de regresión desde la definición del modelo mostrado en la Ecuación 1 como:
\[\begin{equation} E[y]= \beta_0 + \beta_1x \end{equation} \tag{4}\]
La función de regresión de la Ecuación 4 relaciona la media de la distribución de probabilidad de \(y\) dado \(x\), (\(y\mid x\)), para un valor de \(x\). Por lo tanto:
\[\begin{equation} E[y\mid x]= \beta_0 + \beta_1x \end{equation} \tag{5}\]
3. Error
La i-ésima observación de la variable respuesta \(y_i\), supera o está por debajo de la función de regresión debido a la cantidad del término del error \(\epsilon_i\)
4. Varianza de \(y_i\)
El término del error \(\epsilon_i\) se asume con varianza constante \(\sigma^2\). Se deduce que la respuesta \(y_i\) también tiene varianza constante, por lo tanto
\[\begin{equation} \sigma^2(y_i) = \sigma^2 \end{equation} \tag{6}\]
Usando la Ecuación 1 en la Ecuación 7, se tiene:
\[\begin{equation} \begin{split} \sigma^2(y_i) = \sigma^2(\beta_0 + \beta_1x_i+\epsilon_i) = \sigma^2(\epsilon_i) = \sigma^2 \end{split} \end{equation} \tag{7}\]
5. Error no correlacionado
Los términos del error se asumen como no correlacionados, si \(\rho\) representa la correlación entre los términos del error, entonces
\[\begin{gather} \rho(\epsilon_i, \epsilon_j)= 0\\ \forall~i,j;~i\neq j~;~i,j = 1,2,...,n \end{gather}\]
Lo anterior implica que las respuesta \(y_i\) y \(y_j\) también son no correlacionadas.
A los parámetros \(\beta_0\) y \(\beta_1\) se le conocen como coeficientes de regresión. La pendiente \(\beta_1\) es el cambio de la media de la distribución de \(y\) producido por un cambio unitario en \(x\). Si el intervalo de los datos incluye a \(x=0\), entonces la ordenada al origen \(\beta_0\), es la media de la distribución de la respuesta \(y\) cuando \(x=0\), si el intervalo no incluye a \(x=0\), entonces \(\beta_0\) no tiene interpretación práctica
Estimación de parámetros del modelo mediante mínimos cuadrados
Los datos observacionales o experimentales que se utilizarán para estimar los parámetros de la función de regresión consisten en observaciones sobre la variable regresora o predictiva \(x\) y las correspondientes observaciones sobre la variable respuesta \(y\). Existen \(n\) pares de datos \((x_i,y_i)\) con \(i=1,2,...,n\).
Para el modelo de regresión lineal simple se tienen dos parámetros desconocidos: \(\beta_0\) y \(\beta_1\). Los parámetros se estimarán usando una muestra de datos, medidos o controladas por el analista.
Para la estimación de parámetros de la función de regresión mediante mínimos cuadrados, es necesario entender el concepto de error.
En la Figura 1 se observa, en puntos negros, un gráfico de dispersión que relaciona la desigualdad (coeficiente de GINI) y la violencia. Los datos corresponden al año 2021 en los países de América del Sur. A dichos datos se ajustó un modelo de regresión lineal simple, obteniendo los parámetros ajustados \(\hat{\beta_0}=-63,041\) y \(\hat{\beta_1}=1,669\), de esta manera, el modelo es:
\[\begin{equation} y=-63,041+1,669x \end{equation}\]
El modelo adaptado al problema sería:
\[\begin{equation} Tasa~homicidios=-63,041+1,669Gini \end{equation}\]
La recta de color gris corresponde al gráfico de la función de regresión ajustada, los puntos en azul representan los valores ajustados \(\hat{y_i}\) por el modelo, para cada uno de los \(x_i\).
Se define el error como la diferencia entre el valor \(y_i\), que corresponde al dato observado o real dado un \(x_i\) y el valor esperado para \(y_i\), \(E[y_i] = \beta_0 + \beta_1xi\), generalizamos el error con la siguiente expresión:
\[\begin{align} error&= y_i - E[y_i] \\ error &= y_i-(\beta_0 + \beta_1xi) \end{align}\]
Para el cálculo del error, teniendo en cuenta todas las parejas de datos \((x_i,y_i)\) y todos \(E[y_i]\), se elevan los errores al cuadrado y se realiza la suma de los cuadrados del error para \(i=1,2,...,n\), , a esta expresión se le llamará \(Q\):
\[\begin{align} Q=\sum_{i=1}^n{(y_i-\beta_0-\beta_1x_i)^2} \end{align} \tag{8}\]
Los errores se elevan al cuadrado para aprovechar ciertas propiedades, especialmente, la que convierte la expresión del error en una función convexa (Figura 2) en todo su dominio, esto garantiza que se tenga un mínimo, elemento deseado para hallar los parámetros \(\beta_0\) y \(\beta_1\) minimizando el error, esto se traduce en, encontrar la función de regresión con error mínimo.
Para estimar \(\beta_0\) y \(\beta_1\) mediante mínimos cuadrados, se utilizan las aplicaciones de las derivadas, para lo que se hace necesario derivar la función \(Q\) parcialmente con respecto a \(\beta_0\) y \(\beta_1\). Derivando parcialmente \(Q\) con respecto a \(\beta_0\) e igualando a cero se obtiene:
\[\begin{align} \frac{\partial Q}{\partial \beta_0} &=0\\ \frac{\partial Q}{\partial \beta_0} &= \frac{\partial}{\partial \beta_0} \sum_{i=1}^n (y_i - \hat{\beta_0} - \hat{\beta_1}x_i)^2 = 0 \rightarrow \\ \frac{\partial Q}{\partial \beta_0} &= \sum_{i=1}^n \frac{\partial}{\partial \beta_0} (y_i - \hat{\beta_0} - \hat{\beta_1}x_i)^2 = 0 \rightarrow \end{align}\]
\[\begin{align} -2 \sum_{i=1}^n (y_1-\hat{\beta_0}-\hat{\beta_1}x_i) =0 \end{align} \tag{9}\]
Derivando \(Q\) con respecto a \(\beta_1\) se obtiene:
\[\begin{align} \frac{\partial Q}{\partial \beta_1} &=0\\ \frac{\partial Q}{\partial \beta_1} &= \frac{\partial}{\partial \beta_1} \sum_{i=1}^n (y_i - \hat{\beta_0} - \hat{\beta_1}x_i)^2 = 0 \rightarrow \\ \frac{\partial Q}{\partial \beta_1} &= \sum_{i=1}^n \frac{\partial}{\partial \beta_1} (y_i - \hat{\beta_0} - \hat{\beta_1}x_i)^2 = 0 \rightarrow \end{align}\]
\[\begin{align} -2\sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i)x_i =0 \end{align} \tag{10}\]
Se utiliza la Ecuación 9 para obtener el valor estimado para \(\beta_0\), \(\hat{\beta_0}\):
Se aplica propiedad asociativa para la sumatoria: \[\begin{align} -2 \sum_{i=1}^n (y_i-\hat{\beta_0}-\hat{\beta_1}x_i) &= \sum_{i=1}^n y_i - \sum_{i=1}^n \hat{\beta_0} - \sum_{i=1}^n \hat{\beta_1}x_i=0 \\ \end{align}\]
Se usa la propiedad de sumatoria para una constante y propiedad distributiva: \[\begin{align} \sum_{i=1}^n y_i - n\hat{\beta_0} - \hat{\beta_1}\sum_{i=1}^n x_i = 0 \\ \end{align}\]
Se despeja \(\hat{\beta_0}\): \[\begin{align} \hat{\beta_o}=\frac{\sum_{i=1}^n y_i - \hat{\beta_1 }\sum_{i=1}^n x_i}{n} \end{align}\]
Por lo tanto \[\begin{align} \hat{\beta_o}=\frac{\sum_{i=1}^n y_i}{n} - \frac{\hat{\beta_1 }\sum_{i=1}^n x_i}{n} \end{align}\]
Se usa la definición de media muestral \(\bar{x}\) y \(\bar{y}\) para \(x_i\) y \(y_i\) respectivamente: \[\begin{align} \bar{y}&=\frac{\sum_{i=1}^n y_i}{n}\\ \\ \bar{x}&=\frac{\sum_{i=1}^n x_i}{n} \end{align}\]
Por lo tanto:
\[\begin{align} \hat{\beta_0}= \bar{y} - \hat{\beta_1}\bar{x} \end{align} \tag{11}\]
Se utiliza la Ecuación 10 para obtener el valor estimado para \(\beta_1\), \(~\hat{\beta_1}\):
Se utiliza propiedad distributiva para el término \(x_i\): \[\begin{align} \sum_{i=1}^n (y_ix_i - \hat{\beta_0}x_i-\hat{\beta_1}x_i^2)=0 \end{align}\]
Se aplica propiedad asociativa: \[\begin{align} \sum_{i=1}^n y_ix_i - \sum_{i=1}^n\hat{\beta_0}x_i - \sum_{i=1}^n \hat{\beta_1}x_i^2 = 0 \end{align}\]
Se reemplaza Ecuación 11 en el término \(\hat{\beta_0}\): \[\begin{align} \sum_{i=1}^n y_ix_i - \sum_{i=1}^n (\bar{y} - \hat{\beta_1}\bar{x})x_i - \sum_{i=1}^n \hat{\beta_1}x_i^2 = 0 \end{align}\]
Se aplica propiedad distributiva para \(x_i\) y propiedad asociativa en el segundo término de la sumatoria: \[\begin{align} \sum_{i=1}^n y_ix_i - \sum_{i=1}^n \bar{y}x_i +\sum_{i=1}^n \hat{\beta_1}\bar{x}x_i - \sum_{i=1}^n \hat{\beta_1}x_i^2 = 0 \end{align}\]
Se usa propiedad distributiva términos 3 y 4 de la sumatoria: \[\begin{align} \sum_{i=1}^n y_ix_i - \bar{y} \sum_{i=1}^n x_i + \hat{\beta_1}\bar{x}\sum_{i=1}^n x_i - \hat{\beta_1}\sum_{i=1}^n x_i^2 = 0 \end{align}\]
Se agrupan términos semejantes (\(\beta_1\)): \[\begin{align} \sum_{i=1}^n y_ix_i - \bar{y} \sum_{i=1}^n x_i - \hat{\beta_1} \left[\sum_{i=1}^n x_i^2 - \bar{x} \sum_{i=1}^n x_i \right] = 0 \end{align}\]
Se despeja \(\hat{\beta_1}\): \[\begin{align} \hat{\beta_1} =\frac{\sum_{i=1}^n y_ix_i - \bar{y} \sum_{i=1}^n x_i}{\sum_{i=1}^n x_i^2 - \bar{x} \sum_{i=1}^n x_i} \end{align} \tag{12}\]
Se tratará de simplificar la expresión para \(\hat{{\beta_1}}\) de la Ecuación 12, por un lado, se resuelve la siguiente expresión: \[\begin{align} \sum_{i=1}^n (y_i - \bar{y})(x_i - \bar{x}) \end{align}\]
Se aplica propiedad distributiva entre los dos factores de la sumatoria: \[\begin{align} \sum_{i=1}^n (y_i - \bar{y})(x_i - \bar{x}) = \sum_{i=1}^n (y_ix_i - y_i\bar{x} - \bar{y}x_i + \bar{y}\bar{x}) \end{align}\]
Se aplica propiedad asociativa y distributiva para la sumatoria: \[\begin{align} \sum_{i=1}^n (y_ix_i - y_i\bar{x} - \bar{y}x_i + \bar{y}\bar{x}) = \sum_{i=1}^n y_ix_i - \bar{x} \sum_{i=1}^n y_i - \bar{y} \sum_{i=1}^n x_i + \sum_{i=1}^n \bar{y}\bar{x} \end{align}\]
Se aplica sumatoria de una constante en último término: \[\begin{align} \sum_{i=1}^n y_ix_i - \bar{x} \sum_{i=1}^n y_i - \bar{y} \sum_{i=1}^n x_i + \sum_{i=1}^n \bar{y}\bar{x} = \sum_{i=1}^n y_ix_i - \bar{x} \sum_{i=1}^n y_i - \bar{y} \sum_{i=1}^n x_i + n \bar{y}\bar{x} \end{align}\]
Se usan las definiciones de media muestral para \(x_i\) y \(y_1\), \(\bar{x}\) y \(\bar{y}\) respectivamente: \[\begin{align} \bar{x} = \frac{\sum_{i=1}^n x_i}{n}~ \therefore ~ n\bar{x} = \sum_{i=1}^n x_i \\ \\ \bar{y} = \frac{\sum_{i=1}^n y_i}{n}~ \therefore ~ n\bar{y} = \sum_{i=1}^n y_i \end{align}\]
Se reemplaza la expresión de \(\sum_{i=1}^n y_i\) en el segundo término: \[\begin{align} \sum_{i=1}^n y_ix_i - \bar{x} \sum_{i=1}^n y_i - \bar{y} \sum_{i=1}^n x_i + n \bar{y}\bar{x} = \sum_{i=1}^n y_ix_i - n\bar{y}\bar{x} - \bar{y} \sum_{i=1}^n x_i + n \bar{y}\bar{x} \end{align}\]
Se cancelan los términos 2 y 4 \[\begin{align} \sum_{i=1}^n y_ix_i - n\bar{y}\bar{x} - \bar{y} \sum_{i=1}^n x_i + n \bar{y}\bar{x} = \sum_{i=1}^n y_ix_i - \bar{y} \sum_{i=1}^n x_i \end{align}\]
Se obtiene que: \[\begin{align} \sum_{i=1}^n (y_i - \bar{y})(x_i - \bar{x}) = \sum_{i=1}^n y_ix_i - \bar{y} \sum_{i=1}^n x_i \end{align} \tag{13}\]
Por otro lado, se trata de resolver la siguiente expresión: \[\begin{align} \sum_{i=1}^n (x_i - \bar{x})^2 \end{align}\]
Se resuelve el cuadrado del binomio: \[\begin{align} \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i^2 - 2x_i\bar{x}^2 + \bar{x}^2) \end{align}\]
Se aplica propiedad asociativa: \[\begin{align} \sum_{i=1}^n (x_i^2 - 2x_i\bar{x}^2 + \bar{x}^2) = \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2x_i\bar{x} + \sum_{i=1}^n \bar{x}^2 \end{align}\]
Se aplica propiedad distributiva y sumatoria de una constante: \[\begin{align} \sum_{i=1}^n x_i^2 - \sum_{i=1}^n 2x_i\bar{x} + \sum_{i=1}^n \bar{x}^2 = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n \bar{x}^2 \end{align}\]
Se usan las definición de media muestral para \(x_i\),~ \(\bar{x}\) : \[\begin{align} \bar{x} = \frac{\sum_{i=1}^n x_i}{n}~ \therefore ~ n\bar{x} = \sum_{i=1}^n x_i \\ \end{align}\]
Se reemplaza la expresión de \(\sum_{i=1}^n x_i\) en el tercer término: \[\begin{align} \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n \bar{x}^2 = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n\frac{\sum_{i=1}^n x_i}{n}\bar{x} \end{align}\]
Se cancelan los términos de \(n\) en el tercer término: \[\begin{align} \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + n\frac{\sum_{i=1}^n x_i}{n}\bar{x} = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + \sum_{i=1}^n x_i\bar{x} \end{align}\]
Se aplica propiedad distributiva para el tercer término \[\begin{align} \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + \sum_{i=1}^n x_i\bar{x} = \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + \bar{x} \sum_{i=1}^n x_i \end{align}\]
Se realiza la diferencia entre los términos 2 y 3. \[\begin{align} \sum_{i=1}^n x_i^2 - 2\bar{x}\sum_{i=1}^n x_i + \bar{x} \sum_{i=1}^n x_i = \sum_{i=1}^n x_i^2 - \bar{x}\sum_{i=1}^n x_i \end{align}\]
Se obtiene la siguiente expresión \[\begin{align} \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n x_i^2 - \bar{x}\sum_{i=1}^n x_i \end{align} \tag{14}\]
Para obtener una ecuación simplificada para \(\hat{\beta_1}\) reemplazamos Ecuación 13 y Ecuación 14 en Ecuación 12:
\[\begin{align} \hat{\beta_1} &=\frac{\sum_{i=1}^n y_ix_i - \bar{y} \sum_{i=1}^n x_i}{\sum_{i=1}^n x_i^2 - \bar{x} \sum_{i=1}^n x_i} \rightarrow \\ \\ \hat{\beta_1} &= \frac{\sum_{i=1}^n (x_i- \bar{x})(y_i- \bar{y})}{\sum_{i=1}^n (x_i- \bar{x})^2} \end{align} \tag{15}\]
Se puede expresar el parámetro estimado \(\hat{\beta_1}\) usando dos conceptos conocidos en estadística, covarianza y varianza de una muestra de datos para las variables \(x\) y \(y\). Se define la varianza muestral \(S^2_{x}\) para \(x\) y la covarianza muestral \(S_{(xy)}\) para \(x,~y\)de la siguiente manera:
\[\begin{align} S_{x}^2 &= \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2\\ \\ S_{xy} &= \frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y}) \end{align}\]
Si se divide \(S_{(xy)}\) entre \(S_{x}^2\): \[\begin{align} \frac{S_{(xy)}}{S_{x}^2} = \frac{\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2} = \frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2} \end{align} \tag{16}\]
Si se compara la Ecuación 16 con la Ecuación 15 se puede concluir que: \[\begin{align} \hat{\beta_1} = \frac{S_{(xy)}}{S_{x}^2} \end{align} \tag{17}\]
En algunas fuentes bibliográficas se representa al parámetro estimado \(\hat{\beta_1}\) de la siguiente manera: \[\begin{align} \hat{\beta_1} &= \frac{S_{xy}}{S_{xx}};~donde:\\ \\ S_{xy} &= \sum_{i=1}^n y_i(x_i-\bar{x})\\ S_{xx} &= \sum_{i=1}^n (x_i-\bar{x})^2 \end{align} \tag{18}\]
Resumen de ecuaciones de parámetros del modelo estimados mediante mínimos cuadrados
Se mostró la estimación de \(\hat{\beta_0}\)y\(\hat{\beta_1}\) mediante mínimos cuadrados ordinarios, las ecuaciones resultantes son las siguientes:
\[\begin{align} \hat{\beta_0}&= \bar{y} - \hat{\beta_1}\bar{x}\\ \\ \hat{\beta_1} &= \frac{\sum_{i=1}^n (x_i- \bar{x})(y_i- \bar{y})}{\sum_{i=1}^n (x_i- \bar{x})^2}~;~\bar{x}=\frac{\sum_{i=1}^n x_i}{n};~\bar{y}=\frac{\sum_{i=1}^n y_i}{n}\\ \\ \hat{\beta_1} &= \frac{S_{(xy)}}{S_{x}^2}~;~S_{(xy)}=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})~;~S_{x}^2=\frac{1}{n-1} \sum_{i=1}^n (x_i-\bar{x})^2\\ \\ \hat{\beta_1} &= \frac{S_{xy}}{S_{xx}}~;~S_{xy} = \sum_{i=1}^n y_i(x_i-\bar{x})~;~S_{xx} = \sum_{i=1}^n (x_i-\bar{x})^2\\ \\ \end{align} \tag{19}\]
Ejemplo estimación de parámetros \(\hat{\beta_0}\) \(\hat{\beta_1}\):
Un motor de cohete se fabrica uniendo dos piezas importantes dentro de una carcasa de metal: el propulsor de encendido y el propulsor de sustentación. La resistencia al corte de la unión entre los dos tipos de propulsor es una característica de calidad importante. Se sospecha que la resistencia al corte está relacionada con la edad en semanas del lote de propulsor sustentador. Se han recopilado veinte observaciones sobre la resistencia al corte y la edad del lote correspondiente de propulsor que se muestran en la Tabla 1
Observación \(i\) | \(y_i\): Resistencia al corte (psi) | \(x_i\): Edad (semanas) |
---|---|---|
1 | 2158.70 | 15.50 |
2 | 1678.15 | 23.75 |
3 | 2316.00 | 8.00 |
4 | 2061.30 | 17.00 |
5 | 2207.50 | 5.50 |
6 | 1708.30 | 19.00 |
7 | 1784.70 | 24.00 |
8 | 2575.00 | 2.50 |
9 | 2357.90 | 7.50 |
10 | 2256.70 | 11.00 |
11 | 2165.20 | 13.00 |
12 | 2399.55 | 3.75 |
13 | 1779.80 | 25.00 |
14 | 2336.75 | 9.75 |
15 | 1765.30 | 22.00 |
16 | 2053.50 | 18.00 |
17 | 2414.40 | 6.00 |
18 | 2200.50 | 12.50 |
19 | 2654.20 | 2.00 |
20 | 1753.70 | 21.50 |
Si realizamos un diagrama de dispersión para cada observación \(i\) de la edad del lote de propulsor sustentador vs resistencia al corte obtenemos el siguiente resultado (Figura 3):
El diagrama de dispersión de la Figura 3 sugiere que existe una fuerte relación estadística entre la resistencia al corte y la edad del propulsor, y la hipótesis del modelo de línea recta \(y_i = \beta_0+\beta_1x_i+\epsilon_i\) parece razonable.
Para estimar por mínimos cuadrados los parámetros \(\beta_0\) y \(\beta_1\) se usan las expresiones disponibles en la Ecuación 19. Inicialmente se calculan las medias muestrales \(\bar{x}\) y \(\bar{y}\), para la variable independiente y respuesta, respectivamente
Se sabe de la Ecuación 19 que:
\[\begin{align} \bar{x}&=\frac{\sum_{i=1}^n x_i}{n}=\frac{15,50+23,75+8+17+5,50+19+24+2,50+...+2+21,50}{20}\\ \\ \bar{x}&=\frac{267,25}{20}\\ \\ \bar{x}&=13,3625\\ \\ \bar{y}&=\frac{\sum_{i=1}^n y_i}{n}=\frac{2158,70+1678,15+2316,00+...+2200,50+2364,20+1753,70}{20}\\ \\ \bar{y}&=\frac{42627.15}{20}\\ \\ \bar{y}&=2131.358\\ \end{align}\]
Teniendo los datos de \(\bar{x}\) y \(\bar{y}\), se procede a calcular cada uno de los componentes de las ecuaciones de \(S_{xy}\) y de \(S_{xx}\), para \(S_{xy}\) los cálculos se resumen en la Tabla 2
\(i\) | \(x_i\) | \(y_i\) | \(x_i-\bar{x}\) | \(y_i(x_i-\bar{x})\) |
---|---|---|---|---|
1 | 15.50 | 2158.70 | 2.1375 | 4614.221 |
2 | 23.75 | 1678.15 | 10.3875 | 17431.783 |
3 | 8.00 | 2316.00 | -5.3625 | -12419.550 |
4 | 17.00 | 2061.30 | 3.6375 | 7497.979 |
5 | 5.50 | 2207.50 | -7.8625 | -17356.469 |
6 | 19.00 | 1708.30 | 5.6375 | 9630.541 |
7 | 24.00 | 1784.70 | 10.6375 | 18984.746 |
8 | 2.50 | 2575.00 | -10.8625 | -27970.938 |
9 | 7.50 | 2357.90 | -5.8625 | -13823.189 |
10 | 11.00 | 2256.70 | -2.3625 | -5331.454 |
11 | 13.00 | 2165.20 | -0.3625 | -784.885 |
12 | 3.75 | 2399.55 | -9.6125 | -23065.674 |
13 | 25.00 | 1779.80 | 11.6375 | 20712.423 |
14 | 9.75 | 2336.75 | -3.6125 | -8441.509 |
15 | 22.00 | 1765.30 | 8.6375 | 15247.779 |
16 | 18.00 | 2053.50 | 4.6375 | 9523.106 |
17 | 6.00 | 2414.40 | -7.3625 | -17776.020 |
18 | 12.50 | 2200.50 | -0.8625 | -1897.931 |
19 | 2.00 | 2654.20 | -11.3625 | -30158.347 |
20 | 21.50 | 1753.70 | 8.1375 | 14270.734 |
Total | 267.25 | 42627.15 | 0.0000 | -41112.654 |
Si se suman cada uno de los elementos de la columna \(y_i(x_i-\bar{x})\) de la tabla Tabla 2 se obtiene el resultado para \(S_{xy}\), por lo tanto:
\[\begin{align} \sum_{i=1}^n y_i(x_i-\bar{x}) = -41112.65 \end{align}\]
Para \(S_{xx}\) los cálculos se resumen en la Tabla 3
\(i\) | \((x_i - \bar{x})^2\) |
---|---|
1 | 4.5689062 |
2 | 107.9001562 |
3 | 28.7564063 |
4 | 13.2314062 |
5 | 61.8189063 |
6 | 31.7814062 |
7 | 113.1564062 |
8 | 117.9939063 |
9 | 34.3689063 |
10 | 5.5814063 |
11 | 0.1314063 |
12 | 92.4001563 |
13 | 135.4314062 |
14 | 13.0501563 |
15 | 74.6064062 |
16 | 21.5064062 |
17 | 54.2064063 |
18 | 0.7439063 |
19 | 129.1064063 |
20 | 66.2189062 |
Total | 1106.5593750 |
Si se suman cada uno de los elementos de la columna \((x_i-\bar{x})^2\) de la tabla Tabla 3 se obtiene el resultado para \(S_{xx}\), por lo tanto:
\[\begin{align} \sum_{i=1}^n (x_i-\bar{x})^2 = 1106.559 \end{align}\]
Teniendo los resultados para \(S_{xy}\) y para \(S_{xx}\), se puede calcular \(\hat{\beta_1}\), como sigue:
\[\begin{align} \hat{\beta_1}=\frac{S_{xy}}{S_{xx}}=\frac{-41112.65}{1106.559}=-37.15359 \end{align}\]
Conociendo \(\hat{\beta_1}\) se puede calcular \(\hat{\beta_0}\) como sigue:
\[\begin{align} \hat{\beta_{0}}&=\bar{y} - \hat{\beta_1}\bar{x}\\ \\ \hat{\beta_{0}}& = 2115.358 - (-37.15359*13,3625)\\ \\ \hat{\beta_{0}} &= 2627.822 \end{align}\]
Estimación puntual de la respuesta media
Función de regresión estimada \(\hat{yi}\)
Dados los estimadores muestrales \(\hat{\beta_0}\) y \(\hat{\beta_1}\) de los parámetros en la función de regresión de la Ecuación 3 \(\beta_0\) y \(\beta_1\). Se define la Función de Regresión estimada por mínimos cuadrados ordinarios como sigue:
\[\begin{align} \hat{y_i} &= \hat{\beta_0} + \hat{\beta_1}x_i\\ \\ i&=1,2,3,...,n \end{align} \tag{20}\]
\(\hat{y_i}\) se conoce como Valor Ajustado para la i-ésima observación o el i-ésimo caso. Por lo tanto, el valor ajustado \(\hat{yi}\) se diferencia del Valor Observado \(Y_i\).
Función de regresión estimada \(\hat{yi}\) para el ejemplo del motor de cohete
Los valores estimados \(\hat{\beta_0}\) y \(\hat{\beta_1}\) para los parámetros \(\beta_0\) y \(\beta_1\) resultaron en:
\[\begin{align} \hat{\beta_0} &= 2627.822\\ \hat{\beta_1} &= -37.15359 \end{align}\]
Por lo que la función de regresión estimada , basada en la Ecuación 20, es:
\[\begin{align} \hat{y_i} &= 2627.822 - 37.15359x_i \end{align}\]
Las observaciones reales \((x_i, y_i)\) para \(n = 1,2,3,...,20\) y la función de regresión estimada, en azul, se grafica en la Figura 4
Gráficamente la función de regresión estimada \(\hat{y_i} = 2627.822 - 37.15359x_i\) parece ser una “buena” representación estadística de los datos reales, es decir, parece ser una “buena” descripción de la relación existente entre la edad del lote de propulsor sustentador y la resistencia al corte.
Para estimar la respuesta media \(\hat{y_i}\) para cualquier valor o nivel de \(x_i\) de la variable regresora, simplemente se sustituye el valor de una observación \(xi\) en la función de regresión estimada.
Se toma como ejemplo, que es de interés encontrar el valor medio de la resistencia al corte cuando la edad es \(x=25~semanas\), esto es \(x_{13}=25~semanas\) el valor estimado para la resistencia al corte es entonces:
\[\begin{align} \hat{y_{13}} &= 2627.822 - 37.15359x_i\\ \\ \hat{y_{13}} &= 2627.822 - 37.15359(25)\\ \\ \hat{y_{13}} &= 1698.982 \end{align}\]
Esto significa que, si se fabrican muchos motores con lotes de propulsor de sustentación con edad de \(25~semanas\), la resistencia media al corte de la unión entre los propulsores es de \(1698.982~psi\). Por supuesto, es probable que la resistencia al corte de cualquier lote de \(25~semanas\) esté por encima o por debajo de la respuesta media debido a la variabilidad inherente a la fabricación de los motores.
En la Tabla 4 , se muestra el cálculo de \(\hat{y_i}\) para cada uno de las observaciones \(x_i\) para \(i=1,2,3,...,20\)
\(i\) | \(x_i\) | \(\hat{y_i}\) |
---|---|---|
1 | 15.50 | 2051.942 |
2 | 23.75 | 1745.425 |
3 | 8.00 | 2330.594 |
4 | 17.00 | 1996.211 |
5 | 5.50 | 2423.478 |
6 | 19.00 | 1921.904 |
7 | 24.00 | 1736.136 |
8 | 2.50 | 2534.938 |
9 | 7.50 | 2349.170 |
10 | 11.00 | 2219.133 |
11 | 13.00 | 2144.826 |
12 | 3.75 | 2488.496 |
13 | 25.00 | 1698.983 |
14 | 9.75 | 2265.575 |
15 | 22.00 | 1810.443 |
16 | 18.00 | 1959.058 |
17 | 6.00 | 2404.901 |
18 | 12.50 | 2163.402 |
19 | 2.00 | 2553.515 |
20 | 21.50 | 1829.020 |
Residuales \(e_i\)
Se define el i-ésimo residual como la diferencia entre el valor observado \(y_i\) y el correspondiente valor ajustado \(\hat{y_i}\). El i-ésimo residual se denota \(e_i\) y se define como se muestra en la Ecuación 21:
\[\begin{align} e_i = y_i - \hat{y_i} \end{align} \tag{21}\]
Para el modelo de regresión mostrado en Ecuación 1
\[\begin{align} e_i &= y_i - (\hat{\beta_0} + \hat{\beta_0}x_i)\\ \\ e_i &= y_i - \hat{\beta_0} - \hat{\beta_0}x_i \end{align} \tag{22}\]
Residuales \(e_i\) para el ejemplo del motor de cohete
Nuevamente, se toma como ejemplo, que es de interés encontrar el residual \(e_i\) cuando la edad es \(x=25~semanas\), esto es \(x_{13}=25~semanas\). El residual asociado a la estimación \(\hat{y_{13}}\) y la observación \(y_{13}=1779.8\) se puede calcular usando la Ecuación 22:
\[\begin{align} e_i &= y_i - \hat{\beta_0} - \hat{\beta_0}x_i\\ \\ e_{13}&= 1779.8- 2627.822 - (-37.15359(25))\\ \\ e_{13} &= 80.81775 \end{align}\]
En la Tabla 5 , se muestra el cálculo de los \(e_i\) para cada uno de las observaciones \((x_i.y_i)\) para \(i=1,2,3,...,20\)
\(i\) | \(x_i\) | \(y_i\) | \(\hat{y_i}\) | \(e_i\) |
---|---|---|---|---|
1 | 15.50 | 2158.70 | 2051.942 | 106.758301 |
2 | 23.75 | 1678.15 | 1745.425 | -67.274574 |
3 | 8.00 | 2316.00 | 2330.594 | -14.593631 |
4 | 17.00 | 2061.30 | 1996.211 | 65.088687 |
5 | 5.50 | 2207.50 | 2423.478 | -215.977609 |
6 | 19.00 | 1708.30 | 1921.904 | -213.604131 |
7 | 24.00 | 1784.70 | 1736.136 | 48.563824 |
8 | 2.50 | 2575.00 | 2534.938 | 40.061618 |
9 | 7.50 | 2357.90 | 2349.170 | 8.729573 |
10 | 11.00 | 2256.70 | 2219.133 | 37.567141 |
11 | 13.00 | 2165.20 | 2144.826 | 20.374323 |
12 | 3.75 | 2399.55 | 2488.496 | -88.946393 |
13 | 25.00 | 1779.80 | 1698.983 | 80.817415 |
14 | 9.75 | 2336.75 | 2265.575 | 71.175153 |
15 | 22.00 | 1765.30 | 1810.443 | -45.143358 |
16 | 18.00 | 2053.50 | 1959.058 | 94.442278 |
17 | 6.00 | 2414.40 | 2404.901 | 9.499187 |
18 | 12.50 | 2200.50 | 2163.402 | 37.097528 |
19 | 2.00 | 2654.20 | 2553.515 | 100.684823 |
20 | 21.50 | 1753.70 | 1829.020 | -75.320154 |
En el Figura 5 se representa gráficamente el concepto de residual \(e_i\)
Propiedades de la función de regresión estimada por mínimos cuadrados
La función o recta de regresión estimada mediante el método de mínimos cuadrados, Ecuación 20, tiene un número de propiedades cuya mención es importante. Estas propiedades de la función de regresión estimada por mínimos cuadrados no se aplican a todos los modelos de regresión, como se verá más adelante.
1. La suma de los residuales \(e_i\) es cero:
\[\begin{align} &\sum_{i=1}^n e_i = 0\\ \\ &\sum_{i=1}^n (y_i - \hat{y_i}) = 0 \end{align} \tag{23}\]
En la Tabla 6 se muestra dicha propiedad aplicada al del motor de cohete.
\(i\) | \(y_i\) | \(\hat{y_i}\) | \(e_i\) |
---|---|---|---|
1 | 2158.70 | 2051.942 | 106.758301 |
2 | 1678.15 | 1745.425 | -67.274574 |
3 | 2316.00 | 2330.594 | -14.593631 |
4 | 2061.30 | 1996.211 | 65.088687 |
5 | 2207.50 | 2423.478 | -215.977609 |
6 | 1708.30 | 1921.904 | -213.604131 |
7 | 1784.70 | 1736.136 | 48.563824 |
8 | 2575.00 | 2534.938 | 40.061618 |
9 | 2357.90 | 2349.170 | 8.729573 |
10 | 2256.70 | 2219.133 | 37.567141 |
11 | 2165.20 | 2144.826 | 20.374323 |
12 | 2399.55 | 2488.496 | -88.946393 |
13 | 1779.80 | 1698.983 | 80.817415 |
14 | 2336.75 | 2265.575 | 71.175153 |
15 | 1765.30 | 1810.443 | -45.143358 |
16 | 2053.50 | 1959.058 | 94.442278 |
17 | 2414.40 | 2404.901 | 9.499187 |
18 | 2200.50 | 2163.402 | 37.097528 |
19 | 2654.20 | 2553.515 | 100.684823 |
20 | 1753.70 | 1829.020 | -75.320154 |
Total | 42627.15 | 42627.150 | 0.000000 |
2. La sumatoria del cuadrado de los residuales \(\sum_{i=1}^n e_i^2\) es un mínimo:
Este era el requisito que se debía satisfacer para obtener los estimadores por mínimos cuadrados de los parámetros de regresión \(\beta_0\) y \(\beta_1\), ya que \(Q\) de la ecuación Ecuación 8, que corresponde a la función a minimizar es igual a \(\sum_{i=1}^n e_i^2\) cuando se utilizan los estimadores de mínimos cuadrados \(\hat{\beta_0}\) y \(\hat{\beta_1}\) para estimar \(\beta_0\) y \(\beta_1\).
3. La suma de los valores observados \(y_i\) es igual a la suma de los valores ajustados \(\hat{y_i}\):
\[\begin{align} \sum_{i=1}^n y_i = \sum_{i=1}^n \hat{y_i} \end{align} \tag{24}\]
En la Tabla 7 se muestra dicha propiedad aplicada al del motor de cohete.
\(i\) | \(y_i\) | \(\hat{y_i}\) |
---|---|---|
1 | 2158.70 | 2051.942 |
2 | 1678.15 | 1745.425 |
3 | 2316.00 | 2330.594 |
4 | 2061.30 | 1996.211 |
5 | 2207.50 | 2423.478 |
6 | 1708.30 | 1921.904 |
7 | 1784.70 | 1736.136 |
8 | 2575.00 | 2534.938 |
9 | 2357.90 | 2349.170 |
10 | 2256.70 | 2219.133 |
11 | 2165.20 | 2144.826 |
12 | 2399.55 | 2488.496 |
13 | 1779.80 | 1698.983 |
14 | 2336.75 | 2265.575 |
15 | 1765.30 | 1810.443 |
16 | 2053.50 | 1959.058 |
17 | 2414.40 | 2404.901 |
18 | 2200.50 | 2163.402 |
19 | 2654.20 | 2553.515 |
20 | 1753.70 | 1829.020 |
Total | 42627.15 | 42627.150 |
4. La sumatoria de residuales \(e_i\) ponderada por el \(i-ésimo\) valor de la variable regresora es igual a cero:
\[\begin{align} \sum_{i=1}^n x_ie_i = 0\\ \end{align} \tag{25}\]
En la Tabla 8 se muestra dicha propiedad aplicada al ejemplo del motor de cohete.
\(i\) | \(x_i\) | \(e_i\) | \(x_i*e_i\) |
---|---|---|---|
1 | 15.5 | 106.758300644732 | 1654.75366 |
2 | 23.75 | -67.2745740597964 | -1597.77113 |
3 | 8 | -14.5936314420542 | -116.74905 |
4 | 17 | 65.0886870620931 | 1106.50768 |
5 | 5.5 | -215.977608804317 | -1187.87685 |
6 | 19 | -213.604131048097 | -4058.47849 |
7 | 24 | 48.5638236764297 | 1165.53177 |
8 | 2.5 | 40.061618360967 | 100.15405 |
9 | 7.5 | 8.72957308549326 | 65.47180 |
10 | 11 | 37.5671413926613 | 413.23856 |
11 | 13 | 20.3743232824718 | 264.86620 |
12 | 3.75 | -88.9463929579013 | -333.54897 |
13 | 25 | 80.8174146213348 | 2020.43537 |
14 | 9.75 | 71.17515271153 | 693.95774 |
15 | 22 | -45.1433582133809 | -993.15388 |
16 | 18 | 94.4422780069982 | 1699.96100 |
17 | 6 | 9.49918666813544 | 56.99512 |
18 | 12.5 | 37.0975278100194 | 463.71910 |
19 | 2 | 100.684822888514 | 201.36965 |
20 | 21.5 | -75.3201536858334 | -1619.38330 |
Total | - | - | 0.00000 |
5. La sumatoria de residuales \(e_i\) ponderada por el \(i-ésimo\) valor ajustado \(\hat{y_i}\) es igual a cero:
\[\begin{align} \sum_{i=1}^n x_i\hat{y_i} = 0\\ \end{align} \tag{26}\]
En la Tabla 9 se muestra dicha propiedad aplicada al ejemplo del motor de cohete.
\(i\) | \(\hat{y_i}\) | \(e_i\) | \(\hat{y_i}*e_i\) |
---|---|---|---|
1 | 2051.94169935527 | 106.758300644732 | 219061.81 |
2 | 1745.4245740598 | -67.2745740597964 | -117422.69 |
3 | 2330.59363144205 | -14.5936314420542 | -34011.82 |
4 | 1996.21131293791 | 65.0886870620931 | 129930.77 |
5 | 2423.47760880432 | -215.977608804317 | -523416.90 |
6 | 1921.9041310481 | -213.604131048097 | -410526.66 |
7 | 1736.13617632357 | 48.5638236764297 | 84313.41 |
8 | 2534.93838163903 | 40.061618360967 | 101553.73 |
9 | 2349.17042691451 | 8.72957308549326 | 20507.25 |
10 | 2219.13285860734 | 37.5671413926613 | 83366.48 |
11 | 2144.82567671753 | 20.3743232824718 | 43699.37 |
12 | 2488.4963929579 | -88.9463929579013 | -221342.78 |
13 | 1698.98258537867 | 80.8174146213348 | 137307.38 |
14 | 2265.57484728847 | 71.17515271153 | 161252.64 |
15 | 1810.44335821338 | -45.1433582133809 | -81729.49 |
16 | 1959.057721993 | 94.4422780069982 | 185017.87 |
17 | 2404.90081333186 | 9.49918666813544 | 22844.60 |
18 | 2163.40247218998 | 37.0975278100194 | 80256.88 |
19 | 2553.51517711149 | 100.684822888514 | 257100.22 |
20 | 1829.02015368583 | -75.3201536858334 | -137762.08 |
Total | - | - | 0.00 |
6. La función de regresión siempre pasa por el punto \((\bar{x}, \bar{y})\):
Los cálculos para las medias muestrales \(\bar{x}\) y \(\bar{y}\), son respectivamente:
\[\begin{align} \bar{x}&=13,3625\\ \\ \bar{y}&=2131.358 \end{align}\]
La propiedad anterior se puede ver gráficamente en la Figura 6.
Estimación de la varianza \(\sigma^2\)
La varianza \(\sigma^2\) de los términos del error \(\epsilon_i\) necesita ser estimada para obtener un indicador de la variabilidad de las distribuciones de probabilidad de \(y\), además, como se verá más adelante, es necesaria la estimación de \(\sigma^2\), para poder realizar inferencias sobre la función de regresión Ecuación 20 y las predicciones sobre \(y\)
Para sentar las bases del desarrollo de un estimador de \(\sigma^2\) para el modelo de regresión de la Ecuación 1, se considera primero el problema sencillo del muestreo de una única población
Se conoce que la varianza \(\sigma^2\) de una población es estimada mediante la varianza muestral \(S^2\). Se considera la desviación de una observación desde la media estimada \(\bar{y}\), se eleva al cuadrado, y se tiene en cuenta la suma de cada cuadrado de la desviación:
\[\begin{align} \sum_{i=1}^n (y_i-\bar{y})^2 \end{align}\]
Dicha suma es llamada suma de cuadrados. La suma de cuadrados es entonces dividida por los grados de libertad asociados. Los grados de libertad son iguales a \(n-1\), siendo \(n\) el tamaño de la muestra. Es \(n-1\) porque se pierde un grado de libertad si se usa \(\bar{y}\) como estimador de la media poblacional \(\mu\) descocida. El estimador resultante es la conocida varianza muestral \(s^2\)
\[\begin{align} s^2=\frac{\sum_{i=1}^n(y_i-\bar{y})^2}{n-1} \end{align}\]
\(s^2\) es un estimador insesgado de la varianza \(\sigma^2\) para una población infinita.
Un estimador es una regla o función matemática que se utiliza para hacer inferencias sobre un parámetro desconocido de una población a partir de una muestra de datos. Un estimador se considera insesgado si, en promedio, da el valor verdadero del parámetro que estamos tratando de estimar. Esto se formaliza matemáticamente de la siguiente manera:
\[\begin{align} &\text{Sea}~\theta~\text{el parámetro poblacional a estimar}\\ \\&\text{Sea}~\hat{\theta}~\text{el estimador de}~\theta\\ \end{align}\]
El estimador \(\hat{\theta}\) es insesgado si:
\[\begin{align} E(\hat{\theta}) = \theta \end{align}\]
Donde \(E(\hat{\theta})\) es el valor esperado del estimador \(\hat{\theta}\), es decir, la media del la distribución de \(\hat{\theta}\) es igual al parámetro poblacional \(\theta\).
La lógica de desarrollar un estimador de \(\sigma^2\) para el modelo de regresión es la misma que para el muestreo de una sola población. Es importante recordar que la varianza de cada observación \(y_i\) para el modelo de regresión mostrado en Ecuación 1 es \(\sigma2\), como se muestra en la Ecuación 7, la misma que la de cada término de error \(\epsilon_i\). De nuevo, es necesario calcular una suma de desviaciones al cuadrado, pero se debe reconocer que los \(y_i\) proceden ahora de diferentes distribuciones de probabilidad con diferentes medias que dependen del nivel \(x_i\). Así, la desviación de una observación \(y_i\) debe calcularse en torno a su propia media estimada \(\hat{y_i}\). Por lo tanto, las desviaciones son los residuos \(e_i\):
\[\begin{align} e_i = y_i - \hat{y_i} \end{align}\]
Y la suma de cuadrados correspondiente, denotada \(SSE\) es:
\[\begin{align} SSE &= \sum_{i}^n (y_i-\hat{y_i})^2\\ \\ SSE &= \sum_{i}^n e_i^2 \end{align} \tag{27}\]
La suma de cuadrados \(SSE\) tiene \(n-2\) grados de libertad. Dos grados de libertad se pierden porque tanto \(\beta_0\) y \(\beta_1\) deben ser calculados para estimar la media \(\hat{y_i}\), por lo tanto el cuadrado medio apropiado, denotado \(MSE\), es:
\[\begin{align} MSE &= \frac{SSE}{n-2}\\ \\ MSE &= \frac{\sum_{i}^n (y_i-\hat{y_i})^2}{n-2}\\ \\ MSE &= \frac{\sum_{i=1}^n e_i^2} {n-2}\\ \\ MSE = s^2 \end{align} \tag{28}\]
\(MSE\) se conoce como Error Cuadrático Medio. Se puede comprobar que \(MSE\) es un estimador insesgado para \(\sigma^2\) en el modelo de regresión de la ecuación Ecuación 1, esto es:
\[\begin{align} E(MSE) = \sigma^2 \end{align} \tag{29}\]
Un estimador para la desviación estándar \(\sigma\) es \(s=\sqrt{MSE}\)
Estimación de \(\sigma^2\) para el ejemplo del motor de cohete
Los cálculos necesarios para hallar la \(SSE\) y el \(MSE\) se muestran en la Tabla 10, en la que se muestran los cálculos para cada \(e_i^2\)
[1] 9236.381
\(i\) | \(y_i\) | \(\hat{y_i}\) | \(e_i\) | \(e_i^2\) |
---|---|---|---|---|
1 | 2158.7 | 2051.94169935527 | 106.758300644732 | 11397.33476 |
2 | 1678.15 | 1745.4245740598 | -67.2745740597964 | 4525.86831 |
3 | 2316 | 2330.59363144205 | -14.5936314420542 | 212.97408 |
4 | 2061.3 | 1996.21131293791 | 65.0886870620931 | 4236.53718 |
5 | 2207.5 | 2423.47760880432 | -215.977608804317 | 46646.32750 |
6 | 1708.3 | 1921.9041310481 | -213.604131048097 | 45626.72480 |
7 | 1784.7 | 1736.13617632357 | 48.5638236764297 | 2358.44497 |
8 | 2575 | 2534.93838163903 | 40.061618360967 | 1604.93327 |
9 | 2357.9 | 2349.17042691451 | 8.72957308549326 | 76.20545 |
10 | 2256.7 | 2219.13285860734 | 37.5671413926613 | 1411.29011 |
11 | 2165.2 | 2144.82567671753 | 20.3743232824718 | 415.11305 |
12 | 2399.55 | 2488.4963929579 | -88.9463929579013 | 7911.46082 |
13 | 1779.8 | 1698.98258537867 | 80.8174146213348 | 6531.45451 |
14 | 2336.75 | 2265.57484728847 | 71.17515271153 | 5065.90236 |
15 | 1765.3 | 1810.44335821338 | -45.1433582133809 | 2037.92279 |
16 | 2053.5 | 1959.057721993 | 94.4422780069982 | 8919.34388 |
17 | 2414.4 | 2404.90081333186 | 9.49918666813544 | 90.23455 |
18 | 2200.5 | 2163.40247218998 | 37.0975278100194 | 1376.22657 |
19 | 2654.2 | 2553.51517711149 | 100.684822888514 | 10137.43356 |
20 | 1753.7 | 1829.02015368583 | -75.3201536858334 | 5673.12555 |
Total | - | - | - | 166254.85807 |
Por lo que
\[\begin{align} \sum_{i=1}^{20} e_i^2 &= 166254.85807\\ \\ SSE &= 166254.85807 \end{align}\]
Por lo tanto el \(MSE\) sería:
\[\begin{align} MSE &= \frac{SSE}{n-2}\\ \\ MSE &= \frac{166254.85807}{18}\\ \\ MSE &= 9236.381 \end{align}\]
Por lo tanto,
\[\begin{align} s&= \sqrt{MSE}\\ \\ s&= \sqrt{9236.381}\\ \\ s&= 96.10609 \end{align}\]
Finalmente, la estimación puntual de \(\sigma\), la desviación estándar \(s\) de la distribución de probabilidad para \(y\) dado cualquier \(x\) es \(s=96.10609~psi\).
Se toma como ejemplo, que es de interés encontrar el valor medio de la resistencia al corte cuando la edad es \(x=25~semanas\), esto es \(x_{13}=25~semanas\), se encontró anteriormente que la media de la distribución de probabilidad de \(y\) para esta edad de lote es \(1698.982~psi\). Ahora se tiene información adicional, la desviación estándar de la distribución de \(y\) se estima en \(96.10609~psi\). Se observa que la variación en resistencia para una edad de lote de \(25~semanas\), es relativamente baja, \(96.10609~psi\), en comparación con la media de la distribución, \(1698.982~psi\).
Estimación de parámetros en R
Se solucionará en RStudio el problema de estimación de \(\beta_0\) y \(\beta_1\) para el problema del motor del cohete:
Un motor de cohete se fabrica uniendo dos piezas importantes dentro de una carcasa de metal: el propulsor de encendido y el propulsor de sustentación. La resistencia al corte de la unión entre los dos tipos de propulsor es una característica de calidad importante. Se sospecha que la resistencia al corte está relacionada con la edad en semanas del lote de propulsor sustentador. Se han recopilado veinte observaciones sobre la resistencia al corte y la edad del lote correspondiente de propulsor que se muestran en Tabla 1.
#Datos de variable regresora y variable respuesta como vectores:
<- c(15.50,23.75,8,17,5.50,19,24,2.50,7.50,11,13,3.75,25,9.75,22,18,6,12.50,2,21.50)
edad <- c(2158.70,1678.15,2316.00,2061.30,2207.50,1708.30,1784.70,2575.00,2357.90,2256.70,2165.20,2399.55,1779.80,2336.75,1765.30,2053.50,2414.40,2200.50,2654.20,1753.70)
resistencia
# Planteamiento del modelo de datos
<- lm(resistencia~edad)
modelo
# Obtención de información del modelo
summary(modelo)
Call:
lm(formula = resistencia ~ edad)
Residuals:
Min 1Q Median 3Q Max
-215.98 -50.68 28.74 66.61 106.76
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2627.822 44.184 59.48 < 2e-16 ***
edad -37.154 2.889 -12.86 1.64e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 96.11 on 18 degrees of freedom
Multiple R-squared: 0.9018, Adjusted R-squared: 0.8964
F-statistic: 165.4 on 1 and 18 DF, p-value: 1.643e-10
En la tabla Coefficients se observan los valores estimados para el modelo de datos en la columna *Estimate, en este sentido se obtienen:
\[\begin{align} \hat{\beta_0} &= 2627,822\\ \\ \hat{\beta_1} &= -37,154 \end{align}\]