O modelo estatístico de uma regressão linear múltipla com \(k\) variáveis é:
\[ Y_j = \beta_0 + \beta_1 X_{1j} + \beta_2 X_{2j} + \dots + \beta_k X_{kj} + u_j \] Ou, \[ Y_j = \beta_0 + \Sigma_{i=1}^k \beta_i X_{ij} + u_j \]
Nota sobre notação do intercepto: Professor Maurício usa \(\alpha\) para o parâmetro e \(a\) para o estimador. GUJARATI e GREENE usam \(\beta_1\) e \(\hat{\beta_1}\), WOOLDRIDGE usa \(\beta_0\) e \(\hat{\beta_0}\). Vamos adotar a notação do WOOLDRIGE, ou seja, \(\beta_0\) para o parâmetro e \(\hat{\beta_0}\) para o estimador.
Também podemos dizer que:
\[ E(Y_i|X_{2i},X_{3i}) = \beta_0 + \beta_2 X_{2i} + \beta_3 X_{3i} \] Isto fornece o valor esperado (média) de Y condicional aos valores dados (fixos) de \(X_2\) e \(X_3\)., por exemplo:
\[ E(poupança|renda, idade, educação) = \beta_0 + \beta_1log(renda) + \beta_2log(idade) + \beta_3log(educação) \]
Utilizando a notação matricial obtemos
\[ y = X\beta + u \] Onde:
\[
y_{(n x 1)} = X_{[nx(k+1)]}\beta_{[(k+1)x1]} + u_{(nx1)}
\]
\[ \begin{bmatrix} Y_1\\ Y_2\\ Y_3\\ \vdots\\ Y_n \end{bmatrix} = \begin{bmatrix} 1 & X_{11} & X_{21} & X_{31} & \dots & X_{k1}\\ 1 & X_{12} & X_{22} & X_{32} & \dots & X_{k2}\\ 1 & X_{13} & X_{23} & X_{33} & \dots & X_{k3}\\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 & X_{1n} & X_{2n} & X_{3n} & \dots & X_{kn}\\ \end{bmatrix} . \begin{bmatrix} \beta_0\\ \beta_1\\ \beta_2\\ \vdots\\ \beta_k \end{bmatrix} . \begin{bmatrix} u_1\\ u_2\\ U_3\\ \vdots\\ u_n \end{bmatrix} \]
Sobre o vetor de disturbios que representa o erro, podemos apresentar que:
\[ E \begin{bmatrix} u_1\\ u_2\\ \vdots\\ u_n \end{bmatrix} = \begin{bmatrix} E(u_1)\\ E(u_2)\\ \vdots\\ E(u_n) \end{bmatrix} = \begin{bmatrix} 0\\ 0\\ \vdots \\ 0 \end{bmatrix} \]
Assumindo que \(E(u_i) = 0\) e \(E(uu') = \sigma^2I\), podemos expressar como
\[ E(uu') = E \begin{bmatrix} u_1\\ u_2\\ \vdots\\ u_n \end{bmatrix} . \begin{bmatrix} u_1 & u_2 & \dots & u_n \end{bmatrix} = E \begin{bmatrix} u_1^2 & u_1u_2 & \dots & u_1u_n\\ u_2u_1 & u_2^2 & \dots & u_2u_n\\ \dots & \dots & \dots & \dots\\ u_nu_1 & u_nu_2 & \dots & u_n^2\\ \end{bmatrix} = \begin{bmatrix} E(u_1^2) & E(u_1u_2) & \dots & E(u_1u_n)\\ E(u_2u_1() & E(u_2^2) & \dots & E(u_2u_n)\\ \dots & \dots & \dots & \dots\\ E(u_nu_1) & E(u_nu_2) & \dots & E(u_n^2)\\ \end{bmatrix} \]
Considerando as premissas de homocedasticidade e de nenhuma correlação serial, a matrix acima pode ser reduzida a:
\[
E(uu')
=
\begin{bmatrix}
E(u_1^2) & E(u_1u_2) & \dots & E(u_1u_n)\\
E(u_2u_1() & E(u_2^2) & \dots & E(u_2u_n)\\
\dots & \dots & \dots & \dots\\
E(u_nu_1) & E(u_nu_2) & \dots & E(u_n^2)\\
\end{bmatrix}
=
\begin{bmatrix}
\sigma^2 & 0 & \dots & 0\\
0 & \sigma^2 & \dots & 0\\
\dots & \dots & \dots & \dots\\
0 & 0 & \dots & \sigma^2\\
\end{bmatrix}
=
\sigma^2
\begin{bmatrix}
1 & 0 & \dots & 0\\
0 & 1 & \dots & 0\\
\dots & \dots & \dots & \dots\\
0 & 0 & \dots & 1\\
\end{bmatrix}
=
\sigma^2I
\]
Por definição a soma do quadrado dos desvios é mínima quando:
\[ (X'X)\hat{\beta} = X'y \]
Na forma matricial temos, primeiro, \(X\) e a transposta \(X'\)
\[ X = \begin{bmatrix} 1 & X_{11} & X_{21} & X_{31} & \dots & X_{k1}\\ 1 & X_{12} & X_{22} & X_{32} & \dots & X_{k2}\\ 1 & X_{13} & X_{23} & X_{33} & \dots & X_{k3}\\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 & X_{1n} & X_{2n} & X_{3n} & \dots & X_{kn}\\ \end{bmatrix} \quad \text{então} \quad X' = \begin{bmatrix} 1 & 1 & 1 & \dots & 1 \\ X_{11} & X_{12} & X_{13} & \dots & X_{1n}\\ X_{21} & X_{22} & X_{23} & \dots & X_{k3}\\ X_{31} & X_{32} & X_{33} & \dots & X_{3n}\\ \vdots & \vdots & \vdots & \ddots & \vdots\\ X_{k1} & X_{k2} & X_{k3} & \dots & X_{kn}\\ \end{bmatrix} \]
De onde é possível encontrar o produto matricial:
\[ \begin{bmatrix} n & \Sigma X_{2i} & \Sigma X_{3i} & \dots & \Sigma X_{ki}\\ \Sigma X_{2i} & \Sigma X_{2i}^2 & \Sigma X_{2i}X_{3i} & \dots & \Sigma X_{2i}X_{ki}\\ \Sigma X_{3i} & \Sigma X_{3i}X_{2i} & \Sigma X_{3i}^2 & \dots & \Sigma X_{3i}X_{ki}\\ \dots & \dots & \dots & \dots & \Sigma X_{ki}\\ \Sigma X_{ki} & \Sigma X_{ki}X_{2i} & \Sigma X_{ki}X_{3i} & \dots & \Sigma X_{ki}^2\\ \end{bmatrix} \] E por fim, substituir na equação:
\[ \begin{bmatrix} n & \Sigma X_{2i} & \Sigma X_{3i} & \dots & \Sigma X_{ki}\\ \Sigma X_{2i} & \Sigma X_{2i}^2 & \Sigma X_{2i}X_{3i} & \dots & \Sigma X_{2i}X_{ki}\\ \Sigma X_{3i} & \Sigma X_{3i}X_{2i} & \Sigma X_{3i}^2 & \dots & \Sigma X_{3i}X_{ki}\\ \dots & \dots & \dots & \dots & \Sigma X_{ki}\\ \Sigma X_{ki} & \Sigma X_{ki}X_{2i} & \Sigma X_{ki}X_{3i} & \dots & \Sigma X_{ki}^2\\ \end{bmatrix} . \begin{bmatrix} \hat{\beta_0}\\ \hat{\beta_1}\\ \hat{\beta_2}\\ \vdots\\ \hat{\beta_k}\\ \end{bmatrix} = \begin{bmatrix} 1 & 1 & 1 & \dots & 1 \\ X_{11} & X_{12} & X_{13} & \dots & X_{1n}\\ X_{21} & X_{22} & X_{23} & \dots & X_{k3}\\ X_{31} & X_{32} & X_{33} & \dots & X_{3n}\\ \vdots & \vdots & \vdots & \ddots & \vdots\\ X_{k1} & X_{k2} & X_{k3} & \dots & X_{kn}\\ \end{bmatrix} . \begin{bmatrix} Y_1\\ Y_2\\ Y_3\\ \vdots\\ Y_n\\ \end{bmatrix} \]
Se multiplicarmos pela inversa, é possível isolar \(\hat{\beta}\):
\[ \begin{align} (X'X)\hat{\beta} &= X'y \\ (X'X)^{-1}(X'X)\hat{\beta} &= (X'X)^{-1}X'y \\ I\hat{\beta} &= (X'X)^{-1}X'y \\ \end{align} \]
Ou: \[ \hat{\beta} = (X'X)^{-1}X'y \]
Ou \[ \begin{align} \hat{\beta} &= (X'X)^{-1}X'(X\beta+u)\\ \hat{\beta} &= \beta + (X'X)^{-1}X'u\\ \end{align} \]
Assumindo que \(E(u) = 0\) e qualquer coisa multiplicada por zero é zero, temos:
\[ E(\hat{\beta}) = \beta \] Ou seja, é um estimador não viesado.
Se, por definição, a matriz de variâncias e covariâncias dos estimadores é:
\[ E(\hat{\beta}-\beta)(\hat{\beta}-\beta)' = E{(X'X)^{-1}X'uu'X(X'X)^{-1}}\\ \]
Como \(E(uu') = I\sigma^2\) temos: \[ \begin{align} E(\hat{\beta}-\beta)(\hat{\beta}-\beta)' &= {(X'X)^{-1}X' \sigma^{2}IX(X'X)^{-1}}\\ E(\hat{\beta}-\beta)(\hat{\beta}-\beta)' &= (X'X)^{-1}\sigma^{2}\\ \end{align} \]
Em notação matricial:
\[ E(\hat{\beta}-\beta)(\hat{\beta}-\beta)' = \begin{bmatrix} E(\hat{\beta_0}-\beta_0)^2 & E(\hat{\beta_0}-\beta_0)(\hat{\beta_1}-\beta_1) & \dots & E(\hat{\beta_0}-\beta_0)(\hat{\beta_k}-\beta_k)\\ E(\hat{\beta_0}-\beta_0)(\hat{\beta_1}-\beta_1) & E(\hat{\beta_1}-\beta_1)^2 & \dots & E(\hat{\beta_1}-\beta_1)(\hat{\beta_k}-\beta_k)\\ \vdots & \vdots & \ddots & \vdots\\ E(\hat{\beta_0}-\beta_0)(\hat{\beta_k}-\beta_k) & E(\hat{\beta_1}-\beta_1)(\hat{\beta_k}-\beta_k) & \dots & E(\hat{\beta_k}-\beta_k)^2\\ \end{bmatrix} \]
A matriz tambem pode ser escrita como:
\[ var-cov(\hat{\beta}) = \begin{bmatrix} var(\hat{\beta}) & cov(\hat{\beta_1},\hat{\beta_2}) & \dots & cov(\hat{\beta_1},\hat{\beta_k})\\ cov(\hat{\beta_2},\hat{\beta_1}) & var(\hat{\beta_2}) & \dots & cov(\hat{\beta_2},\hat{\beta_k})\\ \dots & \dots & \ddots & \dots \\ cov(\hat{\beta_k},\hat{\beta_1}) & cov(\hat{\beta_k},\hat{\beta_2}) & \dots & var(\hat{\beta_k})\\ \end{bmatrix} = \sigma^2 (X'X)^{-1} \]
Fim.