k-fold CV優點:計算優於LOOCV,且可更準確的估計test error rate(bias-variance trade-off)
5.1.1提及validation set approach會高估test error rate,運用此邏輯,LOOCV估計test error rate會更近似不偏估計;由於每個training set都包含了n-1個觀察值,幾乎是包含了整個data set的所有觀察值
k = 5 or k = 10會使得bias的程度居中,因為每個training set包含了 n/k*(k-1) 個觀察值,小於LOOCV但大於validation set approach
從bias reduction看,LOOCV優於k-fold CV
除了bias外,procedure’s variance也是應該考慮的東西,而LOOCV大於k-fold;至於為什麼,因為我們在使用LOOCV的時候,是踢除一個其餘皆拿來fit model,總共會有n個fitted model,每個幾乎都包含了整體的data set,故這些output會有高度相關的狀況,比起k-fold CV來說,overlap的程度比較高,而一群高度相關的值的平均,也有比較高的variance,所以LOOVCV的variance就會比k-fold CV來得大
bias-variance trade-off與k值大小有關,在取決上憑經驗去避免受到過高的bias或過高的variance影響(?)
說明CV的運用,在當Y是屬量的回歸上,然後使用MSE去量化test error
CV也是也是一個非常常用的方法在分類上(當Y是屬質變數)
比起用MSE去量化test error,更偏好使用misclassified obs去量化test error
LOOCV error rate(see the pdf),k-fold CV與validation set的error rate算法也類似
Example:配飾一條logistic regression要將data進行分類
左上:standard logistic reg,true error rate > bayes error rate,logistic reg無法有彈性的去model bayes dicision boundary
右上:fit一條quadratic logistic regression,將其擴張成非線性的dicision boundary;test error rate有稍微下降
左下:cubic function(有三次多項式的predictor),test error rate下降
右下:quadratic polynomial,test error rate又些許上升
實際上,bayes dicision boundary和test error rate都是未知的,該如何決定要使用四個方法中的哪一個?-> 可利用CV
figure 5.8左圖
black line:10-fold CV error rate -> 近似test error rate效果不錯,雖然有些低估;在四次多項式的時候最接近minimum,但是在三次多項式的時候最接近true error rate的minimum
brown line : true test error rate -> U-shape
blue line : training error rate -> 整體而言,隨著模型愈複雜,error rate越下降
使用四次多項式為佳,當true error rate在三次、四次、五次及六次多項式都很近似相同的時候
fiqure 5.8右圖
KNN approach for classification
training error rate下降當K愈小,無法用來尋找最適的K值
雖然CV error有些低估true error rate但是他的minimum很接近test error rate的minimum