广义线性模型

经典线性回归理论假定因变量 Y 服从高斯分布,而广义线性模型只需因变量 Y 服从指数族分布即可

指数分布族

指数分布族具有以下形式:
\[p(y;\eta) = b(y)exp(\eta^TT(y) - a(\eta))\]
其中的参数意义为:

广义线性模型的三个假设

GLM(Generalized Linear Models)的三个假设是推导普通模型的基础:
1.\(y|x;\theta\quad\)固定参数\(\theta\),在给定x的情况下,y服从指数分布族以\(\eta\)为参数的某个分布
2.给定一个 x,我们需要的目标函数为\(h_{\theta} = \mathbb{E}(T(y)|x;\theta)\)
3.令\(\eta=\theta^Tx\)

##GLM和线性回归的联系
线性回归是在选择合适的 T,a,b使其为高斯分布的时候推导出来的:

根据以上三点假设

##假设1:能否将高斯分布写成指数分布族的形式
\[\begin{split} p(y;\mu)&=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(y-\mu)^2}{2\sigma^2})\\ &=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{1}{2}y^2)\cdot\exp(\mu y-\frac12\mu^2) \end{split}\]

##假设2:目标函数是否等于高斯分布的期望
\[\begin{split} h_{\theta} &= \mathbb{E}\left[T(y)|x;\theta\right]\\ &=\mathbb{E}\left[y|x;\theta\right]\\ &=\mu \end{split}\]

##假设3:自然参数\(\eta\)和x是否是线性关系
\[h_{\theta}(x) = \mu = \eta = \theta^Tx\] 假设3满足的线性关系正是线性回归

###广义线性模型与LR
把伯努利分布放在广义线性模型中推导的时候,就可以得到 logit 回归

##假设1:将伯努利分布写成指数分布族的形式
\[ p = \begin{cases} \phi,& y =1 \\ 1- \phi,& y = 0 \end{cases} \]

\[ \begin{split} \text{p}(y;\phi) &= \phi^y\cdot (1-\phi)^{1-y} \\ &=\exp\left( log(\phi^y\cdot(1-\phi)^{1-y})\right) \\ &=\exp\left(ylog(\phi)+(1-y)log(1-\phi)\right) \\ &=\exp\left((log(\phi)-log(1-\phi))y + log(1-\phi)\right) \\ &=\exp\left(log(\frac{\phi}{1-\phi})y+log(1-\phi)\right) \end{split} \]
对照指数分布族形式可得:
\[\eta^T=log(\frac{\phi}{1-\phi})\]
\[T(y)=y\]
\[b(y)=1\]
\[a(\eta)=log(1-\phi)\]

##假设2:目标函数是否等于伯努利分布的期望
\[ \begin{split} h_{\theta}(x) &= \mathbb{E}\left[T(y)|x;\phi\right] \\ &=\mathbb{E}\left[y|x;\phi\right] \\ &=\phi \end{split} \]
##假设3:
\[ \begin{split} h_\theta(x) &= \phi \\ &=\frac{1}{1+e^{-\eta}} \\ &=\frac{1}{1+e^{-\theta^Tx}} \end{split} \] 对上式两边去对数得到
\[ \begin{aligned} \frac{1}{h_{\theta}(x)} &= 1+e^{-\theta^Tx} \\ \frac{1-h_{\theta}(x)}{h_{\theta}(x)} &= e^{-\theta^Tx} \\ ln \left( \frac{1-h_{\theta}(x)}{h_{\theta}(x)} \right) &= -\theta^Tx \end{aligned} \]
等式(1) 左边:一个事件的几率是该事件发生的概率与一个事件不发生的概率的比值,也就是对数几率,等式右边是线性模型,所以逻辑回归实际上使用右边的线性模型去逼近这个对数几率

\[ln(\frac{h_{\theta}(x)}{1-h_{\theta}(x)}) = \theta^Tx\]
因此将\(ln(\frac{h_{\theta}(x)}{1-h_{\theta}(x)})\)称为联系函数