Machine Learning 5.1.4-5.1.5

5.1.4 Bias-Variance Trade-Off for k-Fold Cross-Validation

k-fold CV優點：計算優於LOOCV，且可更準確的估計test error rate(bias-variance trade-off)
5.1.1提及validation set approach會高估test error rate，運用此邏輯，LOOCV估計test error rate會更近似不偏估計；由於每個training set都包含了n-1個觀察值，幾乎是包含了整個data set的所有觀察值
k = 5 or k = 10會使得bias的程度居中，因為每個training set包含了 n/k*(k-1) 個觀察值，小於LOOCV但大於validation set approach
從bias reduction看，LOOCV優於k-fold CV
除了bias外，procedure’s variance也是應該考慮的東西，而LOOCV大於k-fold；至於為什麼，因為我們在使用LOOCV的時候，是踢除一個其餘皆拿來fit model，總共會有n個fitted model，每個幾乎都包含了整體的data set，故這些output會有高度相關的狀況，比起k-fold CV來說，overlap的程度比較高，而一群高度相關的值的平均，也有比較高的variance，所以LOOVCV的variance就會比k-fold CV來得大
bias-variance trade-off與k值大小有關，在取決上憑經驗去避免受到過高的bias或過高的variance影響(?)

5.1.5 Cross-Validation on Classification Problems

說明CV的運用，在當Y是屬量的回歸上，然後使用MSE去量化test error
CV也是也是一個非常常用的方法在分類上(當Y是屬質變數)
比起用MSE去量化test error，更偏好使用misclassified obs去量化test error
LOOCV error rate(see the pdf)，k-fold CV與validation set的error rate算法也類似
Example：配飾一條logistic regression要將data進行分類
- 左上：standard logistic reg，true error rate > bayes error rate，logistic reg無法有彈性的去model bayes dicision boundary
- 右上：fit一條quadratic logistic regression，將其擴張成非線性的dicision boundary；test error rate有稍微下降
- 左下：cubic function(有三次多項式的predictor)，test error rate下降
- 右下：quadratic polynomial，test error rate又些許上升
實際上，bayes dicision boundary和test error rate都是未知的，該如何決定要使用四個方法中的哪一個？-> 可利用CV
figure 5.8左圖
- black line：10-fold CV error rate -> 近似test error rate效果不錯，雖然有些低估；在四次多項式的時候最接近minimum，但是在三次多項式的時候最接近true error rate的minimum
- brown line : true test error rate -> U-shape
- blue line : training error rate -> 整體而言，隨著模型愈複雜，error rate越下降
- 使用四次多項式為佳，當true error rate在三次、四次、五次及六次多項式都很近似相同的時候
fiqure 5.8右圖
- KNN approach for classification
- training error rate下降當K愈小，無法用來尋找最適的K值
- 雖然CV error有些低估true error rate但是他的minimum很接近test error rate的minimum

Machine Learning 5.1.4-5.1.5

Yupei

2015年10月20日

5.1.4 Bias-Variance Trade-Off for k-Fold Cross-Validation

5.1.5 Cross-Validation on Classification Problems