Processing math: 80%

为什么引入vc维?

为了估计out of sample error,必须定义模型得复杂度。 目前知道得复杂度度量方法:

模型参数个数。。。

naive,sin(αx)虽然只有一个参数,但是明显比分类器I(αx1+βx2>0)复杂度高

trace
ˆy=Sy那么复杂度是tr(S)

实际上,这种复杂度定义应用范围有限,我们需要更general得复杂度定义方式

定义

某一类模型f{x,α}所能shatter得点得数量(假设点得label是任意得)

例子

二维回归不能shatter4个点,所以,vc dimension是3

作用

给out of sample error限定了bound,尽管很loss [Cherkassky & Mulier (2007, pages 116-118)]
对于二分类:Errτ

缺点

有些模型,vc dimension根本不知道