在 linear model 中, 有三個假設:

  1. \(E(\epsilon) = \mathbf{0}\) (zero mean)

  2. \(Var(\epsilon) = \sigma^{2}\mathbf{I}_{(n,n)}\) (uncorrelated and equal variance)

或是你可以寫成 \[ \epsilon \sim (\mathbf{0}, \sigma^{2}\mathbf{I}_{(n,n)}) \]

有這些假設後我們開始估計 \(\beta\)

Estimate \(\beta\) by OLS

linear model 可以寫成 \[\begin{align*} \mathbf{Y} &= \mathbf{X\beta} + \epsilon\\ &= \mathbf{X}\hat{\beta} + \hat{\epsilon}\\ &= \hat{\mathbf{Y}} + \hat{\epsilon} \end{align*}\]

欲找到一個 \(\hat\beta\) 使得 \(\hat{\epsilon}^{T}\hat{\epsilon}\) 最小, 也就是 \[\begin{align*} argmin_{\beta}\epsilon^{T}\epsilon = argmin_{\beta}(Y - \mathbf{X}\beta)^{T}(Y - \mathbf{X}\beta) \end{align*}\]

\[ \frac{\partial}{\partial \beta}(Y - \mathbf{X}\beta)^{T}(Y - \mathbf{X}\beta)\\ =\frac{\partial}{\partial \beta} (Y^{T}Y - 2Y^{T}\mathbf{X}\beta + \beta^{T}\mathbf{X}^{T}\mathbf{X}\beta)\\ = -2\mathbf{X}^{T}Y + 2\mathbf{X}^{T}\mathbf{X}\beta = 0\\ \hat{\beta}_{OLS} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}Y \] 估計完 \(\beta\) 後, 一般來說我們會去看該估計 (1) 是否不偏, (2) 變異數大小

  1. 是否不偏

\[\begin{align*} E(\hat{\beta}_{OLS}) &= E((\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}Y)\\ &= (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}E(Y)\\ &= (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\mathbf{X}\beta \text{ (by assumption (1.))}\\ &= \beta \end{align*}\]

可以看到, \(\hat\beta\) 為不偏估計量

  1. 變異數大小

\[\begin{align*} Var(\hat{\beta}_{OLS}) &= Var((\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}Y)\\ &= (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}Var(Y)\mathbf{X}(\mathbf{X}^{T}\mathbf{X})^{-1}\\ &= (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}\sigma^{2}\mathbf{I}_{(n,n)}\mathbf{X}(\mathbf{X}^{T}\mathbf{X})^{-1} \text{ (by assumption (2.))}\\ &= (\mathbf{X}^{T}\mathbf{X})^{-1}\sigma^{2} \end{align*}\]

Gauss Markov Therom

此定理保證, 透過最小平方法 \((argmin_{\beta}\epsilon^{T}\epsilon)\) 所估計出來的 \(\hat{\beta}\) 在某些狀況下, 是所有不偏估計量中, 變異數最小的

Gauss Markov condition

  1. 滿足基本假設 \(\epsilon \sim (\mathbf{0}, \sigma^{2}\mathbf{I}_{(n,n)})\)

  2. \(\mathbf{X}\beta\) 的結構是正確的 (我們不能保證此項)

  3. \(f(\beta) = c^{T}\beta\) 是一個可被估計的 function

proof

假設 \(a^{T}Y\) 是一個 \(c^{T}\beta\) 的不偏估計量 \[\begin{align*} E(a^{T}Y) &= a^{T}X\beta = c^{T}\beta, \text{so } a^{T}\mathbf{X} = c^{T}\\ Var(c^{T}\hat{\beta}_{OLS}) &= \sigma^{2}c^{T}(\mathbf{X}^{T}\mathbf{X})^{-1}c = a^{T}\mathbf{X}(\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}a = \sigma^{2}a^{T}\mathbf{H}a\\ Var(a^{T}Y) &= \sigma^{2}a^{T}a\\ \end{align*}\]

minimum variance :
\[\begin{align*} Var(a^{T}Y) - Var(c^{T}\hat{\beta}_{OLS}) &= \sigma^{2}(a^{T}a - a^{T}\mathbf{H}a)\\ &= \sigma^{2}(a^{T}\mathbf{I}a - a^{T}\mathbf{H}a)\\ &= \sigma^{2}(a^{T}(\mathbf{I}-\mathbf{H})a)\\ &\geq 0 \end{align*}\] hint :
\[ \mathbf{I}-\mathbf{H} \text{ 為半正定矩陣, 故 } (a^{T}(\mathbf{I}-\mathbf{H})a) \geq 0 \]

results

  1. 最小平方法所估計出來的 \(\hat\beta_{OLS}\) 在模型假設正確時, 是一個擁有良好性質的估計量

  2. 可能存在有偏估計量, 其變異數要比 \(\hat\beta_{OLS}\) 來的小

Estimate \(\beta\) by MLE

假若要使用 MLE 進行參數估計, 就必須要有模型假設, 所以現在假設 : \[ \epsilon \sim N(\mathbf{0}, \sigma^{2}\mathbf{I}_{(n,n)}) \] 接下來進行估計
\[ l(\beta, \sigma^{2}; y) = -\frac{n}{2} \log (2 \pi)-\frac{n}{2} \log \left(\sigma^{2}\right)-\frac{(Y-\mathbf{X} \beta)^{T}(Y-\mathbf{X} \beta)}{\left(2 \sigma^{2}\right)}\\ \frac{\partial}{\partial \beta}l(\beta, \sigma^{2}; y) = -\frac{2\mathbf{X}^{T}Y - 2\mathbf{X}^{T}\mathbf{X}\beta}{\left(2 \sigma^{2}\right)} = 0\\ \hat{\beta}_{MLE} = (\mathbf{X}^{T}\mathbf{X})^{-1}\mathbf{X}^{T}Y \] 可以看到, 和 \(\hat{\beta}_{OLS}\) 所得到的估計式相同, 所以同樣是不偏, 變異數也相同

Estimate \(\sigma^{2}\)

在 assumption(2.) 中, \[ Var(\epsilon) = \sigma^{2}\mathbf{I}_{(n,n)} \]又因為我們假定其平均為 0 , 故 \(Var(\epsilon)\) 可以寫成 , \[ E(\epsilon\epsilon^{T}) = \sigma^{2}\mathbf{I}_{(n,n)} \] 若將其左右取 trace, 就會變成

\[ tr(E(\epsilon\epsilon^{T})) = n\sigma^{2}\\ = E(tr(\epsilon\epsilon^{T})) = E(tr(\epsilon^{T}\epsilon)) = E(\epsilon^{T}\epsilon) = n\sigma^{2} \]

然而我們沒有真實的 \(\epsilon\), 所以只能取其替代品 \(\hat{\epsilon}\),

\[ E(\hat\epsilon^{T}\hat\epsilon) = E(Y^{T}(\mathbf{I-H})Y)\\ \]

Lemma :

\[ E(Y^{T}AY) = tr(A*Cov(Y))+[E(Y)]^{T}A[E(Y)] \]

將其湊成一個不偏估計量 :

\[ E(\hat\epsilon^{T}\hat\epsilon)=E(Y^{T}(\mathbf{I-H})Y) = (n-p)\sigma^{2}\\ \hat{\sigma}^{2} = \frac{\hat\epsilon^{T}\hat\epsilon}{n-p} \]

注意這個方法並不是利用 OLS 去估計的

Estimate \(\sigma^{2}\) by MLE

套用先前 \(\hat{\beta}_{MLE}\) 帶入 log likelihood, 再去解 \(\hat{\sigma^{2}}_{MLE}\), 此方法稱為 Profile likelihood

\[ l(\sigma^{2}; y) = -\frac{n}{2} \log (2 \pi)-\frac{n}{2} \log \left(\sigma^{2}\right)-\frac{(Y-\mathbf{X} \hat\beta)^{T}(Y-\mathbf{X} \hat\beta)}{\left(2 \sigma^{2}\right)}\\ \frac{\partial}{\partial \sigma^{2}}l(\sigma^{2}; y) = -\frac{n}{2\sigma^{2}} + \frac{(Y-\mathbf{X} \hat\beta)^{T}(Y-\mathbf{X} \hat\beta)}{2\sigma^{4}} = 0\\ \hat{\sigma^{2}}_{MLE} =\frac{(Y-\mathbf{X} \hat\beta)^{T}(Y-\mathbf{X} \hat\beta)}{n} = \frac{\hat{\epsilon}^{T}\hat{\epsilon}}{n} \]

可以看到, 和上方 \(\hat{\sigma^{2}}\) 相比, 其為有偏的估計量