MNIST 데이터(우편번호)로 classification을 연습해보자.

데이터 살펴보기

변수개수 & 관측치 개수

dim(mnist.train) ; dim(mnist.test) ;range(mnist.train[,-1])
[1] 60000   785
[1] 10000   785
[1] 0 1
  • 각각 785개의 변수로 구성되었다.
  • 각 변수는 이미지의 픽셀을 의미하며, 변수값은 픽셀의 명도를 나타낸다.
  • 픽셀의 명도는 0~1 사이의 값을 가진다.


- training set은 6만건의 데이터로 이루어져있고, - test set은 만건의 데이터로 이루어져있다.

결측값 확인

sum(is.na(mnist.train)) ;sum(is.na(mnist.test))
[1] 0
[1] 0
  • 결측값은 하나도 없다. 그럼 기분좋게 분석을 시작해보도록 하자!

Knn (with LOOCV)

error.list
 [1] 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309
mean(predict.knn[[1]]== as.factor(mnist.test[,1])) #accuracy rate
[1] 0.9691
table(predict.knn[[1]], as.factor(mnist.test[,1]))
   
       0    1    2    3    4    5    6    7    8    9
  0  973    0    7    0    0    1    4    0    6    2
  1    1 1129    6    1    7    1    2   14    1    5
  2    1    3  992    2    0    0    0    6    3    1
  3    0    0    5  970    0   12    0    2   14    6
  4    0    1    1    1  944    2    3    4    5   10
  5    1    1    0   19    0  860    5    0   13    5
  6    3    1    2    0    3    5  944    0    3    1
  7    1    0   16    7    5    1    0  992    4   11
  8    0    0    3    7    1    6    0    0  920    1
  9    0    0    0    3   22    4    0   10    5  967

랜덤포레스트로 넘어가보자.


randomforest

rf.h

Call:
 randomForest(formula = as.factor(y) ~ ., data = mnist.train,      mtry = 28, importance = T) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 28

        OOB estimate of  error rate: 2.96%
Confusion matrix:
     0    1    2    3    4    5    6    7    8    9 class.error
0 5852    1    6    2    5    4   16    2   31    4  0.01198717
1    1 6648   33    9   12    4    5   12   12    6  0.01394245
2   24   10 5795   17   19    2   17   31   36    7  0.02735817
3    7    5   74 5868    1   43    7   45   53   28  0.04289675
4    9   10   11    0 5679    0   22   11   12   88  0.02790140
5   18    6   10   55    8 5227   42    4   32   19  0.03578676
6   20    8    3    0   10   28 5831    0   18    0  0.01470091
7    6   20   50    4   36    1    0 6069   12   67  0.03128492
8   10   28   31   42   25   32   28    4 5589   62  0.04477867
9   22   10   10   72   61   17    4   45   40 5668  0.04723483

오류를 줄이고 싶다면, 3,8,9를 잘 구분할 수 있도록 학습 시키는 것이 중요하겠다.

mean(yhat.rf!=mnist.test$y); mean(yhat.rf==mnist.test$y)
[1] 0.0288
[1] 0.9712


variance importance plot

# 가장 많은 영향을 주는 변수 상위 10개를 골랐다. 
head(order(tmp$MeanDecreaseAccuracy, decreasing=T), n=10)
 [1] 294 297 322 325 321 295 298 269 349 575
head(order(tmp$MeanDecreaseGini, decreasing=T), n=10)
 [1] 379 407 351 410 378 212 462 406 434 156
  • 어떤 변수가 중요한 영향을 미치는지 살펴보았는데, 현 데이터에서는 큰 의미가 없는 것 같다.
  • 이미지 데이터에서는 변수가 중요한 의미를 가지지 않기 때문이다…..

마지막으로 boosting을 해보자.


Boosting

result.boosting
Call:
maboost(mnist.train[, -1], y = as.factor(mnist.train$y))

Loss: Method: normal   Iteration: 100 

Final Confusion Matrix for Data:
   g
       0    1    2    3    4    5    6    7    8    9
  0 5515    0   26   20   13  147   52    7  128   15
  1    1 6446   57   30    5   26   10   13  129   25
  2   44   65 5121   97  123   54  104  114  205   31
  3   28   56  179 5150   18  267   27   57  211  138
  4   16   15   32   11 5158    6   59   17   64  464
  5   52   49   50  301   90 4544   76   22  112  125
  6   58   38  127    6  112  134 5376    7   58    2
  7   14   81   91    6  114   12    0 5497   60  390
  8   15   93   59  260   47  135   43   14 4988  197
  9   36   19   40   97  239   26    6  141  102 5243

Train Error: 0.116 

Out-Of-Bag Error:  0.127  iteration= 100 

Additional Estimates of number of iterations:

train.err1 train.kap1 
        99         99 
mean(result.boosting$fit == mnist.train$y) #accuracy
[1] 0.8839667

Summary

Acc error ET Remarks
Knn 0.97 0.031 19h 계산시간 너무 오래 걸림
RF 0.97 0.029 6h boosting보다 짧은 계신시간에 비슷한 정확도
Boosting 0.88 0.116 2h 계산시간 매우 짧으나, 정확도가 너무 낮아서 아쉬움

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

끝!!!

