MNIST 데이터(우편번호)로 classification을 연습해보자.

데이터 살펴보기

변수개수 & 관측치 개수

dim(mnist.train) ; dim(mnist.test) ;range(mnist.train[,-1])
[1] 60000   785
[1] 10000   785
[1] 0 1
  • 각각 785개의 변수로 구성되었다.
  • 각 변수는 이미지의 픽셀을 의미하며, 변수값은 픽셀의 명도를 나타낸다.
  • 픽셀의 명도는 0~1 사이의 값을 가진다.


- training set은 6만건의 데이터로 이루어져있고, - test set은 만건의 데이터로 이루어져있다.

결측값 확인

sum(is.na(mnist.train)) ;sum(is.na(mnist.test))
[1] 0
[1] 0
  • 결측값은 하나도 없다. 그럼 기분좋게 분석을 시작해보도록 하자!

Knn (with LOOCV)

error.list
 [1] 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309
mean(predict.knn[[1]]== as.factor(mnist.test[,1])) #accuracy rate
[1] 0.9691
table(predict.knn[[1]], as.factor(mnist.test[,1]))
   
       0    1    2    3    4    5    6    7    8    9
  0  973    0    7    0    0    1    4    0    6    2
  1    1 1129    6    1    7    1    2   14    1    5
  2    1    3  992    2    0    0    0    6    3    1
  3    0    0    5  970    0   12    0    2   14    6
  4    0    1    1    1  944    2    3    4    5   10
  5    1    1    0   19    0  860    5    0   13    5
  6    3    1    2    0    3    5  944    0    3    1
  7    1    0   16    7    5    1    0  992    4   11
  8    0    0    3    7    1    6    0    0  920    1
  9    0    0    0    3   22    4    0   10    5  967

랜덤포레스트로 넘어가보자.


randomforest

rf.h

Call:
 randomForest(formula = as.factor(y) ~ ., data = mnist.train,      mtry = 28, importance = T) 
               Type of random forest: classification
                     Number of trees: 500
No. of variables tried at each split: 28

        OOB estimate of  error rate: 2.96%
Confusion matrix:
     0    1    2    3    4    5    6    7    8    9 class.error
0 5852    1    6    2    5    4   16    2   31    4  0.01198717
1    1 6648   33    9   12    4    5   12   12    6  0.01394245
2   24   10 5795   17   19    2   17   31   36    7  0.02735817
3    7    5   74 5868    1   43    7   45   53   28  0.04289675
4    9   10   11    0 5679    0   22   11   12   88  0.02790140
5   18    6   10   55    8 5227   42    4   32   19  0.03578676
6   20    8    3    0   10   28 5831    0   18    0  0.01470091
7    6   20   50    4   36    1    0 6069   12   67  0.03128492
8   10   28   31   42   25   32   28    4 5589   62  0.04477867
9   22   10   10   72   61   17    4   45   40 5668  0.04723483

오류를 줄이고 싶다면, 3,8,9를 잘 구분할 수 있도록 학습 시키는 것이 중요하겠다.

mean(yhat.rf!=mnist.test$y); mean(yhat.rf==mnist.test$y)
[1] 0.0288
[1] 0.9712


variance importance plot

# 가장 많은 영향을 주는 변수 상위 10개를 골랐다. 
head(order(tmp$MeanDecreaseAccuracy, decreasing=T), n=10)
 [1] 294 297 322 325 321 295 298 269 349 575
head(order(tmp$MeanDecreaseGini, decreasing=T), n=10)
 [1] 379 407 351 410 378 212 462 406 434 156
  • 어떤 변수가 중요한 영향을 미치는지 살펴보았는데, 현 데이터에서는 큰 의미가 없는 것 같다.
  • 이미지 데이터에서는 변수가 중요한 의미를 가지지 않기 때문이다…..

마지막으로 boosting을 해보자.


Boosting

result.boosting
Call:
maboost(mnist.train[, -1], y = as.factor(mnist.train$y))

Loss: Method: normal   Iteration: 100 

Final Confusion Matrix for Data:
   g
       0    1    2    3    4    5    6    7    8    9
  0 5515    0   26   20   13  147   52    7  128   15
  1    1 6446   57   30    5   26   10   13  129   25
  2   44   65 5121   97  123   54  104  114  205   31
  3   28   56  179 5150   18  267   27   57  211  138
  4   16   15   32   11 5158    6   59   17   64  464
  5   52   49   50  301   90 4544   76   22  112  125
  6   58   38  127    6  112  134 5376    7   58    2
  7   14   81   91    6  114   12    0 5497   60  390
  8   15   93   59  260   47  135   43   14 4988  197
  9   36   19   40   97  239   26    6  141  102 5243

Train Error: 0.116 

Out-Of-Bag Error:  0.127  iteration= 100 

Additional Estimates of number of iterations:

train.err1 train.kap1 
        99         99 
mean(result.boosting$fit == mnist.train$y) #accuracy
[1] 0.8839667

Summary

Acc error ET Remarks
Knn 0.97 0.031 19h 계산시간 너무 오래 걸림
RF 0.97 0.029 6h boosting보다 짧은 계신시간에 비슷한 정확도
Boosting 0.88 0.116 2h 계산시간 매우 짧으나, 정확도가 너무 낮아서 아쉬움

Warning message:
In strsplit(code, "\n", fixed = TRUE) :
  input string 1 is invalid in this locale

끝!!!

---
title: "Data mining HW4 (Revised ver.)"
Author: "Yerim Lim"
Date: "2018년 6월 2일"
output: 
  html_notebook:
    toc: true
---

> MNIST 데이터(우편번호)로 classification을 연습해보자.  

# 데이터 살펴보기 
```{r include=FALSE, echo=FALSE}
knitr::opts_chunk$set(comment = "" , prompt = TRUE, out.width = 500, fig.height = 10, fig.width = 10)
library(knitr)
Sys.setlocale("LC_ALL", "Korean")
setwd("E:/Dropbox/00.2018/01.2018_1_semester/01.DataMining/04.HW/HW4")
``` 

- 이번에 분석할 내용은 MNIST라고 부르는 유명한 우편번호 데이터이다. 
- 숫자가 적힌 수많은 데이터를 classification시켜서 기계가 스스로 숫자를 읽을 수 있도록 하는 것이다. 
- 실제 우체국에서 우편번호를 인식해서 기계가 자동으로 우편물을 분류하도록 이용하고 있다. 


```{r echo=FALSE}
mnist.train.large <- read.csv("MNIST_train.csv")
mnist.test.large <- read.csv("MNIST_test.csv")

mnist.train <- mnist.train.large
mnist.test<- mnist.test.large

```

#### 변수개수 & 관측치 개수
```{r}
dim(mnist.train) ; dim(mnist.test) ;range(mnist.train[,-1])

```
- 각각 785개의 변수로 구성되었다. 
- 각 변수는 이미지의 픽셀을 의미하며, 변수값은 픽셀의 명도를 나타낸다. 
- 픽셀의 명도는 0~1 사이의 값을 가진다. 

<br/>
- training set은 6만건의 데이터로 이루어져있고,
- test set은 만건의 데이터로 이루어져있다. 



#### 결측값 확인
```{r}
sum(is.na(mnist.train)) ;sum(is.na(mnist.test))
```
- 결측값은 하나도 없다. 그럼 기분좋게 분석을 시작해보도록 하자!





# Knn (with LOOCV)
- Knn classification이란, 해당 데이터와 거리가 가장 가까운 데이터들을 참고해서 분류분석하는 방법이다. 
- 예림이의 성적을 알고 싶다면, 예림이의 친한 친구들의 성적을 참고해서, 예림이의 성적을 유추해보는 것과 같은 알고리즘이다. - Knn을 LOOCV를 이용해서 분석해보았다. 

```{r, echo=FALSE}
library(class)
set.seed(1234)
error<-list()
predict.knn <- list()

for (i in 1:10){
  predict.knn[[i]] <- knn.cv(mnist.train[,-1],
                   mnist.train[,1],k=1)
}
```


```{r}
error <- list()
for ( i in 1:10){
error[[i]]<-mean(predict.knn[[i]]!=mnist.test[,1])
}

error.list <- unlist(error)
error.list
```

- k=1,2,```,10의 결과가 모두 동일하다. error rate(0.0309)가 모두 같다. 
```{r}
mean(predict.knn[[1]]== as.factor(mnist.test[,1])) #accuracy rate

```
- knn의 accuracy rate는 0.9691로 나왔다. 

```{r}

table(predict.knn[[1]], as.factor(mnist.test[,1]))

```

- k=1인 경우로 놓고 구한 confustion matrix이다. 
- 특별한 규칙성이나 경향은 보이지 않는다. 
- 실제값은 4인데, 9로 misclassify한 경우가 22건으로 가장 많고, 
- 두번째로 많은 misclassification은 실제값이 3인것을 5로 misclassify한 경우이다. 

> 랜덤포레스트로 넘어가보자. 

***



# randomforest
```{r}
library(randomForest)
set.seed(1)
rf.h<-randomForest(as.factor(y)~.,data=mnist.train,mtry=28,importance=T)
rf.h


```
- 랜덤포레스트 결과이다. 
- split은 $\sqrt 785 = 28$로 놓고 풀었다. 
- OOB error rate는 약 2.96%이다. 결과가 정말 좋다. 오류가 이렇게나 적다니...!
- 각 숫자의 class error rate를 살펴보면 **3**, **8**, **9**의 error rate가 각각 0.042, 0.044, 0.047로 비교적 높게 나왔다.
- 3,8,9 -> 이 세 숫자 모양이 비슷해서 그런 것 같다. 
- 실제로 confusion matrix를 통해 misclassification한 것을 보면  3과 8,9를 서로 혼동해서 classification 한 경우가 많다는 것을 볼 수 있다. 
- knn에서는 오분류에대한 어떤 특정한 경향이 안 보였는데, 

> 오류를 줄이고 싶다면, 3,8,9를 잘 구분할 수 있도록 학습 시키는 것이 중요하겠다. 


```{r include=FALSE}
yhat.rf<-predict(rf.h,newdata=mnist.test)

```

```{r}
mean(yhat.rf!=mnist.test$y); mean(yhat.rf==mnist.test$y)
```
- randomforest로 분석했을 때의 error rate는 0.0288이다.
- accuracy rate는 0.9712이다.  

<br/>

#### variance importance plot
```{r, fig.width=15, fig.height=15}
# importance(rf.h)
varImpPlot(rf.h)
```


```{r message=FALSE, warning=FALSE}
tmp <- importance(rf.h)
tmp <- as.data.frame(tmp)

# mean decrease accuracy를 이용해 가장 많은 영향을 주는 변수 상위 10개를 골랐다. 
head(order(tmp$MeanDecreaseAccuracy, decreasing=T), n=10)
```

```{r}
# mean decrease gini를 통해 살펴본 상위 10개 변수@@@
head(order(tmp$MeanDecreaseGini, decreasing=T), n=10)
```
- 어떤 변수가 중요한 영향을 미치는지 살펴보았는데, 현 데이터에서는 큰 의미가 없는 것 같다. 
- 이미지 데이터에서는 변수가 중요한 의미를 가지지 않기 때문이다..... 

> 마지막으로 boosting을 해보자. 

***

# Boosting
```{r include=FALSE}
library(maboost)
result.boosting <- maboost(mnist.train[,-1], 
                  as.factor(mnist.train$y))

```

```{r}
result.boosting
mean(result.boosting$fit == mnist.train$y) #accuracy

```
- boosting 결과가 생각보다 좋게 나오지 않았다. 
- accaracy rate는 0.8840이고, error rate는 0.1160.
- OOB error는 0.127로 나왔다(test error의 추정값이라 생각하면 된다)
- boosting은 원래 binary output에 최적화된건데, 우리 데이터는 multiclass output이어서 모형적합도가 떨어지는 것 같다. 

***



# Summary
```{r message=FALSE, warning=FALSE, echo=FALSE}
options(knitr.table.format="html")
options(kableExtra.auto_format=F)

library(kableExtra)
names <- c("Knn","RF","Boosting")
Acc <- c(0.9691, 0.97,0.88)
error <- c(0.031, 0.029, 0.116)
ET <- c("19h","6h","2h")
Remarks <- c("계산시간 너무 오래 걸림",
             "boosting보다 짧은 계신시간에 비슷한 정확도",
             "계산시간 매우 짧으나, 정확도가 너무 낮아서 아쉬움 ")
names(Acc) <- names
names(error) <- names
names(ET) <- names
names(Remarks) <- names
df <- as.data.frame(cbind(Acc,error, ET, Remarks))


kable(df, row.names = T, format="html")%>% 
  kable_styling(bootstrap_options = c("striped","hover"),full_width=F) %>% 
  column_spec(4, width = "3em" )
```

- knn, randomforest, boosting 이상 3개 방법을 종합해보았다. 
- 나라면 조금 오래 걸리더라도 randomforest로 분석할 것 같다. 

> 끝!!!