El método de mínimos cuadrados ordinarios permite obtener estimadores puntuales de los parámetros del modelo de regresión lineal simple, que está dado por:

\[{{y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}}} \] Donde \(y_{i}\) es la variable dependiente, \(x_{i}\) es la variable independiente, \(\beta_{0}\) es el intercepto, \(\beta_{1}\) la pendiente y \(\epsilon_{i}\) es el término del error aleatorio.

Los \(\beta_{i}\) son los parámetros del modelo.

El procedimiento para obtener los estimadores MCO de los parámetros del modelo de regresión lineal simple son:

Paso 1: Construir la función que se desea minimizar, que obedece a la suma con \(i\) desde 1 hasta \(n\) de los errores al cuadrado, esto es, interesa minizar la siguiente función:

\[F(\beta_{0},\beta_{1})= \sum_{i=1}^{n}\left (\epsilon_{i}\right)^{2}\] Del MRLS se puede despejar el valor de \(\epsilon_{i}\), y por lo tanto la función quedaría así:

\[F(\beta_{0},\beta_{1})= \sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)^{2}\]

Paso 2:Derivar parcialmente la función que se desea minimizar con respecto a cada uno de los parámetros.

La derivada con respecto a \(\beta_{0}\) estaría dada por:

\[\frac{\partial{F(\beta_{0},\beta_{1})}}{\partial\beta_{0}}=2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(-1)=-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)\]

La derivada con respecto a \(\beta_{1}\) estaría dada por:

\[\frac{\partial{F(\beta_{0},\beta_{1})}}{\partial\beta_{1}}=2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(-x_{i})=-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(x_{i})\]

Paso 3: Obtener un sistema de ecuaciones, igualando cada derivada parcial obtenida a 0.

\[\begin{eqnarray} -2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)=0\\ -2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(x_{i})=0\\ \end{eqnarray}\]

Paso 4: Resolver el sistema de ecuaciones para cada uno de los parámetros.

Primero, se simplifican las expresiones obtenidas en el paso 3.

Al operar la primera ecuación, se puede despejar \(\beta_{0}\)

\[-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)=0 \rightarrow \sum_{i=1}^{n}{y_{i}-n\beta_{0}-\beta_{1}\sum_{i=1}^{n}x_{i}}=0 \rightarrow \frac{\sum_{i=1}^{n}{y_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}}}{n}=\beta_{0}\]

Observe que si cada término de la última ecuación se divide entre \(n\), se obtiene lo siguiente:

\[\frac{\sum_{i=1}^{n}{y_{i}}}{n}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}=\overline{y}-\beta_{1}\overline{x}=\beta_{0}\] Al operar la segunda ecuación, también se puede despejar \(\beta_{0}\), para luego resolver el sistema de ecuaciones por igualación.

\[-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(x_{i})=0 \rightarrow \sum_{i=1}^{n}{y_{i}x_{i}-\beta_{0}\sum_{i=1}^{n}x_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}^{2}}=0 \rightarrow \frac{\sum_{i=1}^{n}{y_{i}x_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}^{2}}}{\sum_{i=1}^{n}x_{i}}=\beta_{0}\] Igualando las dos expresiones que se tienen para \(\beta_{0}\), quedaría una ecuación en términos de un sólo parámetro \(\beta_{1}\).

\[\begin{eqnarray} \frac{\sum_{i=1}^{n}{y_{i}x_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}^{2}}}{\sum_{i=1}^{n}x_{i}}=\frac{\sum_{i=1}^{n}{y_{i}}}{n}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}\\ \frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\beta_{1}\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}=\frac{\sum_{i=1}^{n}{y_{i}}}{n}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}\\ \frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{y_{i}}}{n}=\frac{\beta_{1}\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}\\ \frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{y_{i}}}{n}= \beta_{1} \left(\frac{\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{x_{i}}}{n}\right)\\ \end{eqnarray}\]

De esta última expresión, se puede despejar \(\beta_{1}\), obteniendo la siguiente expresión:

\[\frac{\frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{y_{i}}}{n}}{\frac{\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{x_{i}}}{n}}=\hat\beta_{1}\] Observe que en la expresión anterior, el parámetro \(\beta_{1}\) está expresado en términos de cantidades que solamente dependen de datos muestrales \((x,y)\), así que se trata de un estimador puntual del parámetro, y por eso se marca con el símbolo ^.

Ahora, la expresión anterior se puede simplificar restando las fracciones que hay tanto en el numerador como en el denominador, como se presenta a continuación:

\[\begin{eqnarray} \frac{\frac{n\sum_{i=1}^{n}y_{i}x_{i}-\sum_{i=1}^{n}y_{i}\sum_{i=1}^{n}x_{i}}{n\sum_{i=1}^{n}x_{i}}}{\frac{n\sum_{i=1}^{n}x_{i}^{2}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}x_{i}}{n\sum_{i=1}^{n}x_{i}}}=\hat{\beta_{1}}\\ \frac{n\sum_{i=1}^{n}y_{i}x_{i}-\sum_{i=1}^{n}y_{i}\sum_{i=1}^{n}x_{i}}{n\sum_{i=1}^{n}x_{i}^{2}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}x_{i}}=\hat{\beta_{1}}\\ \frac{\sum_{i=1}^{n}y_{i}x_{i}-n\overline{y}\overline{x}}{\sum_{i=1}^{n}x_{i}^{2}-n\overline{x}^{2}}=\hat{\beta_{1}}\\ \end{eqnarray}\]

Una vez obtenido el estimador puntual del \(\beta_{1}\), se puede reemplazar en la expresión inicial que se obtivo de \(\beta_{0}\), así que los estimadores puntuales de los parámetros del modelo de regresión lineal simple usando el método de Mínimos Cuadrados Ordinarios son:

\[\begin{eqnarray} \frac{\sum_{i=1}^{n}y_{i}x_{i}-n\overline{y}\overline{x}}{\sum_{i=1}^{n}x_{i}^{2}-n\overline{x}^{2}}=\hat{\beta_{1}}\\ \overline{y}-\hat{\beta_{1}}\overline{x}=\hat{\beta_{0}}\\ \end{eqnarray}\]

Algunos aspectos relacionados con los estimadores puntuales de los parámetros del modelo de regresión lineal

Teniendo en cuenta que el modelo de regresión lineal múltiple está estructurado bajo matrices, es importante tener presente las siguientes propiedades:

\[\mathbf{(A+B)^T=A^T+B^T}\] \[\mathbf{(AB)^T=A^TB^T}\] \[\mathbf{A^{-1}A=I}\]

Considerando el modelo de regresión lineal múltiple, el vector de estimadores puntuales de los parámetros, es importante considerar la siguiente forma alternativa para hallarlo:

\[\mathbf{\hat{B}=(X^{T}X)^{-1}X^{T}Y=(X^{T}X)^{-1}X^{T}(XB+R)=(X^{T}X)^{-1}X^{T}XB+(X^{T}X)^{-1}X^{T}R=B+(X^{T}X)^{-1}X^{T}R}\]

Tener presente que \((X^{T}X)^{-1}X^{T}X=I\), y que \(R\) representa el vector de residuales o errores, para luego no confundirlo con el operador esperanza \(E\).

1. Los estimadores de los parámetros obtenidos por MCO son insesgados

Un estimador \(\hat{\theta}\) de un parámetro \(\theta\) es insesgado si \(E(\hat{\theta})=\theta\). Partiendo de esta definición, se tiene lo siguiente:

\[\mathbf{E(\hat{B})=E(B+(X^{T}X)^{-1}X^{T}R)=E(B)+E((X^{T}X)^{-1}X^{T}R)=B+(X^{T}X)^{-1}X^{T}E(R)}\] Considerando que el valor esperado de los residuales es 0, esto es, \({E(R)=0}\), la expresión anterior confirma que \({E(\hat{B})=B}\), y por lo tanto se trata de un estimador insesgado.

2. La covarianza del vector de párametros estimado depende de la varianza de los residuales

La covarianza se define como \(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]\), y la varianza de los residuales está dada por \({V(R)=E(RR^{T})=\sigma^2I}\). Como interesa obtener una expresión para la covarianza de los estimadores del modelo, entonces se tiene lo siguiente:

\[\begin{eqnarray} \mathbf{Cov(\hat{B})=E((\hat{B}-B)(\hat{B}-B)^T)=\\ E(((X^{T}X)^{-1}X^{T}R)((X^{T}X)^{-1}X^{T}R)^T)=\\ E((X^{T}X)^{-1}X^{T}RR^TX(X^{T}X)^{-1})=\\ (X^{T}X)^{-1}X^TE(RR^T)X(X^{T}X)^{-1}=\\ \sigma^2(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}}\\ \end{eqnarray}\]

Como \((X^{T}X)^{-1}X^{T}X=I\), la expresión anterior se puede escribir de la siguiente manera:

\[\mathbf{Cov(\hat{B})=\sigma^2(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}=\sigma^2(X^{T}X)^{-1}}\]

3. De acuerdo con el Teorema de Gauss-Markov, los estimadores de los parámetros obtenidos por MCO son los mejores estimadores lineales insesgados

De acuerdo con el Teorema de Gauss Markov, el estimador de mínimos cuadrados \({\hat{B}}\) es el mejor estimador lineal insesgado de \({B}\). Ya se sabe que el estimador es insesgado, pero el teorema indica que también es de mínima varianza.

Para demostrarlo, se considera otro estimador lineal en \({Y}\) insesgado, denotado como \({\tilde{B}}\), de tal forma que \({\tilde{B}=CY}\) y \({E(\tilde{B})=B}\).

\[\mathbf{E(\tilde{B})=E(CY)=CE(Y)=CXB}\] Como \({\tilde{B}}\) es insesgado, entonces \({CXB=B}\). Para que se cumpla la igualdad, \({CX=I}\).

Ahora, como \(\mathbf{\tilde{B}=CY}\), reemplazando \({Y=XB+R}\), se tiene la siguiente expresión:

\[\mathbf{\tilde{B}=CY =C(XB+R)=CXB+CR=IB+CR=B+CR}\]

De esta manera, interesa demostrar que \({V(\tilde{B})\geq V(\hat{B})}\), o de forma similar, que \({V(\tilde{B})- V(\hat{B})}\) es una matriz semidefinida positiva, y para ello se tendrán en cuenta los resultados previos, como se muestra a continuación.

Primero se calcula \({V(\tilde{B})}\) porque \({V(\hat{B})}\) ya fue obtenida previamente.

\[\begin{eqnarray} \mathbf{V(\tilde{B})=E\left((\tilde{B}-B)(\tilde{B}-B)^T\right)=\\ E\left((B+CR-B)(B+CR-B)^T\right)=\\ E\left((CR)(CR)^T\right)=\\ E\left(CRR^TC^T\right)=CE(RR^T)C^T=\sigma^2CC^T\\ } \end{eqnarray}\]

Ahora, considerando que se tienen las varianzas de ambos estimadores, puede calcularse la diferencia entre ellas:

\[\begin{eqnarray} \mathbf{V(\tilde{B})- V(\hat{B})=\sigma^2CC^T-\sigma^2(X^{T}X)^{-1}=\\ \sigma^2\left(CC^T-I(X^{T}X)^{-1}I\right)=\\ \sigma^2\left(CC^{T}-CX(X^{T}X)^{-1}C^{T}X^{T}\right)=\\ \sigma^{2}C(I-X(X^{T}X)^{-1}X^{T})C^{T}\\ } \end{eqnarray}\]

Puede demostrarse que la matriz \((I-X(X^{T}X)^{-1}X^{T})\) es simétrica idempotente, así que se cumple que \({V(\tilde{B})\geq V(\hat{B})}\).

Algunos aspectos relacionados con los residuales del modelo de regresión lineal simple y la ecuación de la recta

1. La sumatoria de los errores es igual a cero (0)

\[\begin{eqnarray} \sum_{i=1}^{n}e_{i}=\sum_{i=1}^{n}y_{i}-\hat{y_{i}}=\\ \sum_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})=\\ \sum_{i=1}^{n}y_{i}-n\hat{\beta_{0}}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-n(\overline{y}-\hat{\beta_{1}}\overline{x})-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-\frac{n\sum_{i=1}^{n}y_{i}}{n}+\frac{n\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}}{n}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-\sum_{i=1}^{n}y_{i}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=0\\ \end{eqnarray}\]

2. La sumatoria de los valores de la variable dependiente \(y_{i}\) es igual a la sumatoria de sus valores ajustados \(\hat{y_{i}}\)

\[\begin{eqnarray} \sum_{i=1}^{n}\hat{y_{i}}=\sum_{i=1}^{n}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})=\\ \sum_{i=1}^{n}\hat{\beta_{0}}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}(\overline{y}-\hat{\beta_{1}}\overline{x})+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ n\overline{y}-n\hat{\beta_{1}}\overline{x}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ n\frac{\sum_{i=1}^{n}y_{i}}{n}-n\hat{\beta_{1}}\frac{\sum_{i=1}^{n}x_{i}}{n}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}\\ \end{eqnarray}\]

3. La sumatoria de la multiplicación entre la variable independiente \(x_{i}\) y los residuales \(e_{i}\) es igual a cero (0)

Para efectos de simplificación, se utilizarán las siguientes notaciones:

\[S_{xy}=\sum_{i=1}^{n}x_{i}y_{i}-n\overline{x}\overline{y}\] \[S_{xx}=\sum_{i=1}^{n}x_{i}^2-n\overline{x}^2\]

Considerando esta notación, la pendiente del modelo de regresión lineal simple se puede escribir como \(\hat{\beta_{1}}=\frac{S_{xy}}{S_{xx}}\). La demostración de interés se presenta a continuación:

\[\begin{eqnarray} \sum_{i=1}^{n}{x_{i}}\hat{\epsilon_{i}}=\sum_{i=1}^{n}{x_{i}}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})=\\ \sum_{i=1}^{n}{x_{i}}{y_{i}}-\hat{\beta_{0}}\sum_{i=1}^{n}{x_{i}}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}^{2}=\\ \sum_{i=1}^{n}{x_{i}}{y_{i}}-\hat{\beta_{0}}\sum_{i=1}^{n}{x_{i}}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}^{2}+n\overline{y}\overline{x}-n\overline{y}\overline{x}=\\ S_{xy}-\left(\overline{y}-\frac{S_{xy}}{S_{xx}}\overline{x}\right)\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}^2}+n\overline{y}\overline{x}=\\ S_{xy}-\overline{y}\sum_{i=1}^{n}{x_{i}}+\overline{x}\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}^{2}+n\frac{\sum_{i=1}^{n}{y_{i}}}{n}\frac{\sum_{i=1}^{n}{x_{i}}}{n}=\\ S_{xy}-\overline{y}\sum_{i=1}^{n}{x_{i}}+\overline{x}\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}^{2}+\overline{y}\sum_{i=1}^{n}{x_{i}}=\\ S_{xy}+\overline{x}\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}^{2}=\\ S_{xy}-\frac{S_{xy}}{S_{xx}}\left(\sum_{i=1}^{n}{x_{i}}^{2}-\overline{x}\sum_{i=1}^{n}{x_{i}}\right)=\\ S_{xy}-\frac{S_{xy}}{S_{xx}}S_{xx}\\ S_{xy}-S_{xy}=0\\ \end{eqnarray}\]

4. La sumatoria de la multiplicación entre la variable dependiente ajustada \(\hat{y_{i}}\) y los residuales \(e_{i}\) es igual a cero (0)

Para abordar esta propiedad, es importante tener presente que, de acuerdo con los resultados anteriores, \(\sum_{i=1}^{n}\hat{\epsilon_{i}}=0\) y \(\sum_{i=1}^{n}\hat{\epsilon_{i}}\hat{x_{i}}=0\).

\[\sum_{i=1}^{n}\hat{\epsilon_{i}}\hat{y_{i}}=\sum_{i=1}^{n}\hat{\epsilon_{i}}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})=\hat{\beta_{0}}\sum_{i=1}^{n}\hat{\epsilon_{i}}+\hat{\beta_{1}}\sum_{i=1}^{n}\hat{\epsilon_{i}}\hat{x_{i}}=0\]

5. La recta de regresión siempre pasa por el punto \((\overline{x},\overline{y})\)

Considerando que \(\sum_{i=1}^{n}\hat{y_{i}}=\sum_{i=1}^{n}y_{i}\), se tiene lo siguiente:

\[\sum_{i=1}^{n}y_{i}=\sum_{i=1}^{n}\hat{y_{i}}\] \[\sum_{i=1}^{n}y_{i}=\sum_{i=1}^{n}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})=n\hat{\beta_{0}}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}\] Conservando la igualdad, toda la ecuación se divide entre \(n\):

\[\frac{\sum_{i=1}^{n}y_{i}}{n}=\frac{n\hat{\beta_{0}}}{n}+\frac{\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}}{n}\] Al reescribir las expresiones, se obtiene:

\[\overline{y}=\hat{\beta_{0}}+\hat{\beta_{1}}\overline{x}\] La ecuación anterior conserva la misma estructura del MRLS, así que de acuerdo con lo anterior, la recta de regresión para por el punto \((\overline{x},\overline{y})\).