El método de mínimos cuadrados ordinarios permite obtener estimadores puntuales de los parámetros del modelo de regresión lineal simple, que está dado por:
\[{{y_{i}=\beta_{0}+\beta_{1}x_{i}+\epsilon_{i}}} \] Donde \(y_{i}\) es la variable dependiente, \(x_{i}\) es la variable independiente, \(\beta_{0}\) es el intercepto, \(\beta_{1}\) la pendiente y \(\epsilon_{i}\) es el término del error aleatorio.
Los \(\beta_{i}\) son los parámetros del modelo.
El procedimiento para obtener los estimadores MCO de los parámetros del modelo de regresión lineal simple son:
Paso 1: Construir la función que se desea minimizar, que obedece a la suma con \(i\) desde 1 hasta \(n\) de los errores al cuadrado, esto es, interesa minizar la siguiente función:
\[F(\beta_{0},\beta_{1})= \sum_{i=1}^{n}\left (\epsilon_{i}\right)^{2}\] Del MRLS se puede despejar el valor de \(\epsilon_{i}\), y por lo tanto la función quedaría así:
\[F(\beta_{0},\beta_{1})= \sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)^{2}\]
Paso 2:Derivar parcialmente la función que se desea minimizar con respecto a cada uno de los parámetros.
La derivada con respecto a \(\beta_{0}\) estaría dada por:
\[\frac{\partial{F(\beta_{0},\beta_{1})}}{\partial\beta_{0}}=2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(-1)=-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)\]
La derivada con respecto a \(\beta_{1}\) estaría dada por:
\[\frac{\partial{F(\beta_{0},\beta_{1})}}{\partial\beta_{1}}=2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(-x_{i})=-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(x_{i})\]
Paso 3: Obtener un sistema de ecuaciones, igualando cada derivada parcial obtenida a 0.
\[\begin{eqnarray} -2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)=0\\ -2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(x_{i})=0\\ \end{eqnarray}\]
Paso 4: Resolver el sistema de ecuaciones para cada uno de los parámetros.
Primero, se simplifican las expresiones obtenidas en el paso 3.
Al operar la primera ecuación, se puede despejar \(\beta_{0}\)
\[-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)=0 \rightarrow \sum_{i=1}^{n}{y_{i}-n\beta_{0}-\beta_{1}\sum_{i=1}^{n}x_{i}}=0 \rightarrow \frac{\sum_{i=1}^{n}{y_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}}}{n}=\beta_{0}\]
Observe que si cada término de la última ecuación se divide entre \(n\), se obtiene lo siguiente:
\[\frac{\sum_{i=1}^{n}{y_{i}}}{n}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}=\overline{y}-\beta_{1}\overline{x}=\beta_{0}\] Al operar la segunda ecuación, también se puede despejar \(\beta_{0}\), para luego resolver el sistema de ecuaciones por igualación.
\[-2\sum_{i=1}^{n}\left ({y_{i}-\beta_{0}-\beta_{1}x_{i}}\right)(x_{i})=0 \rightarrow \sum_{i=1}^{n}{y_{i}x_{i}-\beta_{0}\sum_{i=1}^{n}x_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}^{2}}=0 \rightarrow \frac{\sum_{i=1}^{n}{y_{i}x_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}^{2}}}{\sum_{i=1}^{n}x_{i}}=\beta_{0}\] Igualando las dos expresiones que se tienen para \(\beta_{0}\), quedaría una ecuación en términos de un sólo parámetro \(\beta_{1}\).
\[\begin{eqnarray} \frac{\sum_{i=1}^{n}{y_{i}x_{i}-\beta_{1}\sum_{i=1}^{n}x_{i}^{2}}}{\sum_{i=1}^{n}x_{i}}=\frac{\sum_{i=1}^{n}{y_{i}}}{n}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}\\ \frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\beta_{1}\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}=\frac{\sum_{i=1}^{n}{y_{i}}}{n}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}\\ \frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{y_{i}}}{n}=\frac{\beta_{1}\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}-\beta_{1}\frac{\sum_{i=1}^{n}{x_{i}}}{n}\\ \frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{y_{i}}}{n}= \beta_{1} \left(\frac{\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{x_{i}}}{n}\right)\\ \end{eqnarray}\]
De esta última expresión, se puede despejar \(\beta_{1}\), obteniendo la siguiente expresión:
\[\frac{\frac{\sum_{i=1}^{n}{y_{i}x_{i}}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{y_{i}}}{n}}{\frac{\sum_{i=1}^{n}{x_{i}^2}}{\sum_{i=1}^{n}x_{i}}-\frac{\sum_{i=1}^{n}{x_{i}}}{n}}=\hat\beta_{1}\] Observe que en la expresión anterior, el parámetro \(\beta_{1}\) está expresado en términos de cantidades que solamente dependen de datos muestrales \((x,y)\), así que se trata de un estimador puntual del parámetro, y por eso se marca con el símbolo ^.
Ahora, la expresión anterior se puede simplificar restando las fracciones que hay tanto en el numerador como en el denominador, como se presenta a continuación:
\[\begin{eqnarray} \frac{\frac{n\sum_{i=1}^{n}y_{i}x_{i}-\sum_{i=1}^{n}y_{i}\sum_{i=1}^{n}x_{i}}{n\sum_{i=1}^{n}x_{i}}}{\frac{n\sum_{i=1}^{n}x_{i}^{2}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}x_{i}}{n\sum_{i=1}^{n}x_{i}}}=\hat{\beta_{1}}\\ \frac{n\sum_{i=1}^{n}y_{i}x_{i}-\sum_{i=1}^{n}y_{i}\sum_{i=1}^{n}x_{i}}{n\sum_{i=1}^{n}x_{i}^{2}-\sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}x_{i}}=\hat{\beta_{1}}\\ \frac{\sum_{i=1}^{n}y_{i}x_{i}-n\overline{y}\overline{x}}{\sum_{i=1}^{n}x_{i}^{2}-n\overline{x}^{2}}=\hat{\beta_{1}}\\ \end{eqnarray}\]
Una vez obtenido el estimador puntual del \(\beta_{1}\), se puede reemplazar en la expresión inicial que se obtivo de \(\beta_{0}\), así que los estimadores puntuales de los parámetros del modelo de regresión lineal simple usando el método de Mínimos Cuadrados Ordinarios son:
\[\begin{eqnarray} \frac{\sum_{i=1}^{n}y_{i}x_{i}-n\overline{y}\overline{x}}{\sum_{i=1}^{n}x_{i}^{2}-n\overline{x}^{2}}=\hat{\beta_{1}}\\ \overline{y}-\hat{\beta_{1}}\overline{x}=\hat{\beta_{0}}\\ \end{eqnarray}\]
Teniendo en cuenta que el modelo de regresión lineal múltiple está estructurado bajo matrices, es importante tener presente las siguientes propiedades:
\[\mathbf{(A+B)^T=A^T+B^T}\] \[\mathbf{(AB)^T=A^TB^T}\] \[\mathbf{A^{-1}A=I}\]
Considerando el modelo de regresión lineal múltiple, el vector de estimadores puntuales de los parámetros, es importante considerar la siguiente forma alternativa para hallarlo:
\[\mathbf{\hat{B}=(X^{T}X)^{-1}X^{T}Y=(X^{T}X)^{-1}X^{T}(XB+R)=(X^{T}X)^{-1}X^{T}XB+(X^{T}X)^{-1}X^{T}R=B+(X^{T}X)^{-1}X^{T}R}\]
Tener presente que \((X^{T}X)^{-1}X^{T}X=I\), y que \(R\) representa el vector de residuales o errores, para luego no confundirlo con el operador esperanza \(E\).
1. Los estimadores de los parámetros obtenidos por MCO son insesgados
Un estimador \(\hat{\theta}\) de un parámetro \(\theta\) es insesgado si \(E(\hat{\theta})=\theta\). Partiendo de esta definición, se tiene lo siguiente:
\[\mathbf{E(\hat{B})=E(B+(X^{T}X)^{-1}X^{T}R)=E(B)+E((X^{T}X)^{-1}X^{T}R)=B+(X^{T}X)^{-1}X^{T}E(R)}\] Considerando que el valor esperado de los residuales es 0, esto es, \({E(R)=0}\), la expresión anterior confirma que \({E(\hat{B})=B}\), y por lo tanto se trata de un estimador insesgado.
2. La covarianza del vector de párametros estimado depende de la varianza de los residuales
La covarianza se define como \(Cov(X,Y)=E[(X-E(X))(Y-E(Y))]\), y la varianza de los residuales está dada por \({V(R)=E(RR^{T})=\sigma^2I}\). Como interesa obtener una expresión para la covarianza de los estimadores del modelo, entonces se tiene lo siguiente:
\[\begin{eqnarray} \mathbf{Cov(\hat{B})=E((\hat{B}-B)(\hat{B}-B)^T)=\\ E(((X^{T}X)^{-1}X^{T}R)((X^{T}X)^{-1}X^{T}R)^T)=\\ E((X^{T}X)^{-1}X^{T}RR^TX(X^{T}X)^{-1})=\\ (X^{T}X)^{-1}X^TE(RR^T)X(X^{T}X)^{-1}=\\ \sigma^2(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}}\\ \end{eqnarray}\]
Como \((X^{T}X)^{-1}X^{T}X=I\), la expresión anterior se puede escribir de la siguiente manera:
\[\mathbf{Cov(\hat{B})=\sigma^2(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}=\sigma^2(X^{T}X)^{-1}}\]
3. De acuerdo con el Teorema de Gauss-Markov, los estimadores de los parámetros obtenidos por MCO son los mejores estimadores lineales insesgados
De acuerdo con el Teorema de Gauss Markov, el estimador de mínimos cuadrados \({\hat{B}}\) es el mejor estimador lineal insesgado de \({B}\). Ya se sabe que el estimador es insesgado, pero el teorema indica que también es de mínima varianza.
Para demostrarlo, se considera otro estimador lineal en \({Y}\) insesgado, denotado como \({\tilde{B}}\), de tal forma que \({\tilde{B}=CY}\) y \({E(\tilde{B})=B}\).
\[\mathbf{E(\tilde{B})=E(CY)=CE(Y)=CXB}\] Como \({\tilde{B}}\) es insesgado, entonces \({CXB=B}\). Para que se cumpla la igualdad, \({CX=I}\).
Ahora, como \(\mathbf{\tilde{B}=CY}\), reemplazando \({Y=XB+R}\), se tiene la siguiente expresión:
\[\mathbf{\tilde{B}=CY =C(XB+R)=CXB+CR=IB+CR=B+CR}\]
De esta manera, interesa demostrar que \({V(\tilde{B})\geq V(\hat{B})}\), o de forma similar, que \({V(\tilde{B})- V(\hat{B})}\) es una matriz semidefinida positiva, y para ello se tendrán en cuenta los resultados previos, como se muestra a continuación.
Primero se calcula \({V(\tilde{B})}\) porque \({V(\hat{B})}\) ya fue obtenida previamente.
\[\begin{eqnarray} \mathbf{V(\tilde{B})=E\left((\tilde{B}-B)(\tilde{B}-B)^T\right)=\\ E\left((B+CR-B)(B+CR-B)^T\right)=\\ E\left((CR)(CR)^T\right)=\\ E\left(CRR^TC^T\right)=CE(RR^T)C^T=\sigma^2CC^T\\ } \end{eqnarray}\]
Ahora, considerando que se tienen las varianzas de ambos estimadores, puede calcularse la diferencia entre ellas:
\[\begin{eqnarray} \mathbf{V(\tilde{B})- V(\hat{B})=\sigma^2CC^T-\sigma^2(X^{T}X)^{-1}=\\ \sigma^2\left(CC^T-I(X^{T}X)^{-1}I\right)=\\ \sigma^2\left(CC^{T}-CX(X^{T}X)^{-1}C^{T}X^{T}\right)=\\ \sigma^{2}C(I-X(X^{T}X)^{-1}X^{T})C^{T}\\ } \end{eqnarray}\]
Puede demostrarse que la matriz \((I-X(X^{T}X)^{-1}X^{T})\) es simétrica idempotente, así que se cumple que \({V(\tilde{B})\geq V(\hat{B})}\).
1. La sumatoria de los errores es igual a cero (0)
\[\begin{eqnarray} \sum_{i=1}^{n}e_{i}=\sum_{i=1}^{n}y_{i}-\hat{y_{i}}=\\ \sum_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})=\\ \sum_{i=1}^{n}y_{i}-n\hat{\beta_{0}}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-n(\overline{y}-\hat{\beta_{1}}\overline{x})-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-\frac{n\sum_{i=1}^{n}y_{i}}{n}+\frac{n\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}}{n}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-\sum_{i=1}^{n}y_{i}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=0\\ \end{eqnarray}\]
2. La sumatoria de los valores de la variable dependiente \(y_{i}\) es igual a la sumatoria de sus valores ajustados \(\hat{y_{i}}\)
\[\begin{eqnarray} \sum_{i=1}^{n}\hat{y_{i}}=\sum_{i=1}^{n}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})=\\ \sum_{i=1}^{n}\hat{\beta_{0}}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}(\overline{y}-\hat{\beta_{1}}\overline{x})+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ n\overline{y}-n\hat{\beta_{1}}\overline{x}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ n\frac{\sum_{i=1}^{n}y_{i}}{n}-n\hat{\beta_{1}}\frac{\sum_{i=1}^{n}x_{i}}{n}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}=\\ \sum_{i=1}^{n}y_{i}\\ \end{eqnarray}\]
3. La sumatoria de la multiplicación entre la variable independiente \(x_{i}\) y los residuales \(e_{i}\) es igual a cero (0)
Para efectos de simplificación, se utilizarán las siguientes notaciones:
\[S_{xy}=\sum_{i=1}^{n}x_{i}y_{i}-n\overline{x}\overline{y}\] \[S_{xx}=\sum_{i=1}^{n}x_{i}^2-n\overline{x}^2\]
Considerando esta notación, la pendiente del modelo de regresión lineal simple se puede escribir como \(\hat{\beta_{1}}=\frac{S_{xy}}{S_{xx}}\). La demostración de interés se presenta a continuación:
\[\begin{eqnarray} \sum_{i=1}^{n}{x_{i}}\hat{\epsilon_{i}}=\sum_{i=1}^{n}{x_{i}}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})=\\ \sum_{i=1}^{n}{x_{i}}{y_{i}}-\hat{\beta_{0}}\sum_{i=1}^{n}{x_{i}}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}^{2}=\\ \sum_{i=1}^{n}{x_{i}}{y_{i}}-\hat{\beta_{0}}\sum_{i=1}^{n}{x_{i}}-\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}^{2}+n\overline{y}\overline{x}-n\overline{y}\overline{x}=\\ S_{xy}-\left(\overline{y}-\frac{S_{xy}}{S_{xx}}\overline{x}\right)\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}^2}+n\overline{y}\overline{x}=\\ S_{xy}-\overline{y}\sum_{i=1}^{n}{x_{i}}+\overline{x}\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}^{2}+n\frac{\sum_{i=1}^{n}{y_{i}}}{n}\frac{\sum_{i=1}^{n}{x_{i}}}{n}=\\ S_{xy}-\overline{y}\sum_{i=1}^{n}{x_{i}}+\overline{x}\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}^{2}+\overline{y}\sum_{i=1}^{n}{x_{i}}=\\ S_{xy}+\overline{x}\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}-\frac{S_{xy}}{S_{xx}}\sum_{i=1}^{n}{x_{i}}^{2}=\\ S_{xy}-\frac{S_{xy}}{S_{xx}}\left(\sum_{i=1}^{n}{x_{i}}^{2}-\overline{x}\sum_{i=1}^{n}{x_{i}}\right)=\\ S_{xy}-\frac{S_{xy}}{S_{xx}}S_{xx}\\ S_{xy}-S_{xy}=0\\ \end{eqnarray}\]
4. La sumatoria de la multiplicación entre la variable dependiente ajustada \(\hat{y_{i}}\) y los residuales \(e_{i}\) es igual a cero (0)
Para abordar esta propiedad, es importante tener presente que, de acuerdo con los resultados anteriores, \(\sum_{i=1}^{n}\hat{\epsilon_{i}}=0\) y \(\sum_{i=1}^{n}\hat{\epsilon_{i}}\hat{x_{i}}=0\).
\[\sum_{i=1}^{n}\hat{\epsilon_{i}}\hat{y_{i}}=\sum_{i=1}^{n}\hat{\epsilon_{i}}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})=\hat{\beta_{0}}\sum_{i=1}^{n}\hat{\epsilon_{i}}+\hat{\beta_{1}}\sum_{i=1}^{n}\hat{\epsilon_{i}}\hat{x_{i}}=0\]
5. La recta de regresión siempre pasa por el punto \((\overline{x},\overline{y})\)
Considerando que \(\sum_{i=1}^{n}\hat{y_{i}}=\sum_{i=1}^{n}y_{i}\), se tiene lo siguiente:
\[\sum_{i=1}^{n}y_{i}=\sum_{i=1}^{n}\hat{y_{i}}\] \[\sum_{i=1}^{n}y_{i}=\sum_{i=1}^{n}(\hat{\beta_{0}}+\hat{\beta_{1}}x_{i})=n\hat{\beta_{0}}+\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}\] Conservando la igualdad, toda la ecuación se divide entre \(n\):
\[\frac{\sum_{i=1}^{n}y_{i}}{n}=\frac{n\hat{\beta_{0}}}{n}+\frac{\hat{\beta_{1}}\sum_{i=1}^{n}x_{i}}{n}\] Al reescribir las expresiones, se obtiene:
\[\overline{y}=\hat{\beta_{0}}+\hat{\beta_{1}}\overline{x}\] La ecuación anterior conserva la misma estructura del MRLS, así que de acuerdo con lo anterior, la recta de regresión para por el punto \((\overline{x},\overline{y})\).