MNIST 데이터(우편번호)로 classification을 연습해보자.
데이터 살펴보기
- 이번에 분석할 내용은 MNIST라고 부르는 유명한 우편번호 데이터이다.
- 숫자가 적힌 수많은 데이터를 classification시켜서 기계가 스스로 숫자를 읽을 수 있도록 하는 것이다.
- 실제 우체국에서 우편번호를 인식해서 기계가 자동으로 우편물을 분류하도록 이용하고 있다.
변수개수 & 관측치 개수
dim(mnist.train) ; dim(mnist.test) ;range(mnist.train[,-1])
[1] 60000 785
[1] 10000 785
[1] 0 1
- 각각 785개의 변수로 구성되었다.
- 각 변수는 이미지의 픽셀을 의미하며, 변수값은 픽셀의 명도를 나타낸다.
- 픽셀의 명도는 0~1 사이의 값을 가진다.
- training set은 6만건의 데이터로 이루어져있고, - test set은 만건의 데이터로 이루어져있다.
결측값 확인
sum(is.na(mnist.train)) ;sum(is.na(mnist.test))
[1] 0
[1] 0
- 결측값은 하나도 없다. 그럼 기분좋게 분석을 시작해보도록 하자!
Knn (with LOOCV)
- Knn classification이란, 해당 데이터와 거리가 가장 가까운 데이터들을 참고해서 분류분석하는 방법이다.
- 예림이의 성적을 알고 싶다면, 예림이의 친한 친구들의 성적을 참고해서, 예림이의 성적을 유추해보는 것과 같은 알고리즘이다. - Knn을 LOOCV를 이용해서 분석해보았다.
error.list
[1] 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309 0.0309
- k=1,2,```,10의 결과가 모두 동일하다. error rate(0.0309)가 모두 같다.
mean(predict.knn[[1]]== as.factor(mnist.test[,1])) #accuracy rate
[1] 0.9691
- knn의 accuracy rate는 0.9691로 나왔다.
table(predict.knn[[1]], as.factor(mnist.test[,1]))
0 1 2 3 4 5 6 7 8 9
0 973 0 7 0 0 1 4 0 6 2
1 1 1129 6 1 7 1 2 14 1 5
2 1 3 992 2 0 0 0 6 3 1
3 0 0 5 970 0 12 0 2 14 6
4 0 1 1 1 944 2 3 4 5 10
5 1 1 0 19 0 860 5 0 13 5
6 3 1 2 0 3 5 944 0 3 1
7 1 0 16 7 5 1 0 992 4 11
8 0 0 3 7 1 6 0 0 920 1
9 0 0 0 3 22 4 0 10 5 967
- k=1인 경우로 놓고 구한 confustion matrix이다.
- 특별한 규칙성이나 경향은 보이지 않는다.
- 실제값은 4인데, 9로 misclassify한 경우가 22건으로 가장 많고,
- 두번째로 많은 misclassification은 실제값이 3인것을 5로 misclassify한 경우이다.
랜덤포레스트로 넘어가보자.
randomforest
rf.h
Call:
randomForest(formula = as.factor(y) ~ ., data = mnist.train, mtry = 28, importance = T)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 28
OOB estimate of error rate: 2.96%
Confusion matrix:
0 1 2 3 4 5 6 7 8 9 class.error
0 5852 1 6 2 5 4 16 2 31 4 0.01198717
1 1 6648 33 9 12 4 5 12 12 6 0.01394245
2 24 10 5795 17 19 2 17 31 36 7 0.02735817
3 7 5 74 5868 1 43 7 45 53 28 0.04289675
4 9 10 11 0 5679 0 22 11 12 88 0.02790140
5 18 6 10 55 8 5227 42 4 32 19 0.03578676
6 20 8 3 0 10 28 5831 0 18 0 0.01470091
7 6 20 50 4 36 1 0 6069 12 67 0.03128492
8 10 28 31 42 25 32 28 4 5589 62 0.04477867
9 22 10 10 72 61 17 4 45 40 5668 0.04723483
- 랜덤포레스트 결과이다.
- split은 \(\sqrt 785 = 28\)로 놓고 풀었다.
- OOB error rate는 약 2.96%이다. 결과가 정말 좋다. 오류가 이렇게나 적다니…!
- 각 숫자의 class error rate를 살펴보면 3, 8, 9의 error rate가 각각 0.042, 0.044, 0.047로 비교적 높게 나왔다.
- 3,8,9 -> 이 세 숫자 모양이 비슷해서 그런 것 같다.
- 실제로 confusion matrix를 통해 misclassification한 것을 보면 3과 8,9를 서로 혼동해서 classification 한 경우가 많다는 것을 볼 수 있다.
- knn에서는 오분류에대한 어떤 특정한 경향이 안 보였는데,
오류를 줄이고 싶다면, 3,8,9를 잘 구분할 수 있도록 학습 시키는 것이 중요하겠다.
mean(yhat.rf!=mnist.test$y); mean(yhat.rf==mnist.test$y)
[1] 0.0288
[1] 0.9712
- randomforest로 분석했을 때의 error rate는 0.0288이다.
- accuracy rate는 0.9712이다.
variance importance plot

# 가장 많은 영향을 주는 변수 상위 10개를 골랐다.
head(order(tmp$MeanDecreaseAccuracy, decreasing=T), n=10)
[1] 294 297 322 325 321 295 298 269 349 575
head(order(tmp$MeanDecreaseGini, decreasing=T), n=10)
[1] 379 407 351 410 378 212 462 406 434 156
- 어떤 변수가 중요한 영향을 미치는지 살펴보았는데, 현 데이터에서는 큰 의미가 없는 것 같다.
- 이미지 데이터에서는 변수가 중요한 의미를 가지지 않기 때문이다…..
마지막으로 boosting을 해보자.
Boosting
result.boosting
Call:
maboost(mnist.train[, -1], y = as.factor(mnist.train$y))
Loss: Method: normal Iteration: 100
Final Confusion Matrix for Data:
g
0 1 2 3 4 5 6 7 8 9
0 5515 0 26 20 13 147 52 7 128 15
1 1 6446 57 30 5 26 10 13 129 25
2 44 65 5121 97 123 54 104 114 205 31
3 28 56 179 5150 18 267 27 57 211 138
4 16 15 32 11 5158 6 59 17 64 464
5 52 49 50 301 90 4544 76 22 112 125
6 58 38 127 6 112 134 5376 7 58 2
7 14 81 91 6 114 12 0 5497 60 390
8 15 93 59 260 47 135 43 14 4988 197
9 36 19 40 97 239 26 6 141 102 5243
Train Error: 0.116
Out-Of-Bag Error: 0.127 iteration= 100
Additional Estimates of number of iterations:
train.err1 train.kap1
99 99
mean(result.boosting$fit == mnist.train$y) #accuracy
[1] 0.8839667
- boosting 결과가 생각보다 좋게 나오지 않았다.
- accaracy rate는 0.8840이고, error rate는 0.1160.
- OOB error는 0.127로 나왔다(test error의 추정값이라 생각하면 된다)
- boosting은 원래 binary output에 최적화된건데, 우리 데이터는 multiclass output이어서 모형적합도가 떨어지는 것 같다.
Summary
| |
Acc |
error |
ET |
Remarks |
| Knn |
0.97 |
0.031 |
19h |
계산시간 너무 오래 걸림 |
| RF |
0.97 |
0.029 |
6h |
boosting보다 짧은 계신시간에 비슷한 정확도 |
| Boosting |
0.88 |
0.116 |
2h |
계산시간 매우 짧으나, 정확도가 너무 낮아서 아쉬움 |
Warning message:
In strsplit(code, "\n", fixed = TRUE) :
input string 1 is invalid in this locale
- knn, randomforest, boosting 이상 3개 방법을 종합해보았다.
- 나라면 조금 오래 걸리더라도 randomforest로 분석할 것 같다.
끝!!!
---
title: "Data mining HW4 (Revised ver.)"
Author: "Yerim Lim"
Date: "2018년 6월 2일"
output: 
  html_notebook:
    toc: true
---

> MNIST 데이터(우편번호)로 classification을 연습해보자.  

# 데이터 살펴보기 
```{r include=FALSE, echo=FALSE}
knitr::opts_chunk$set(comment = "" , prompt = TRUE, out.width = 500, fig.height = 10, fig.width = 10)
library(knitr)
Sys.setlocale("LC_ALL", "Korean")
setwd("E:/Dropbox/00.2018/01.2018_1_semester/01.DataMining/04.HW/HW4")
``` 

- 이번에 분석할 내용은 MNIST라고 부르는 유명한 우편번호 데이터이다. 
- 숫자가 적힌 수많은 데이터를 classification시켜서 기계가 스스로 숫자를 읽을 수 있도록 하는 것이다. 
- 실제 우체국에서 우편번호를 인식해서 기계가 자동으로 우편물을 분류하도록 이용하고 있다. 


```{r echo=FALSE}
mnist.train.large <- read.csv("MNIST_train.csv")
mnist.test.large <- read.csv("MNIST_test.csv")

mnist.train <- mnist.train.large
mnist.test<- mnist.test.large

```

#### 변수개수 & 관측치 개수
```{r}
dim(mnist.train) ; dim(mnist.test) ;range(mnist.train[,-1])

```
- 각각 785개의 변수로 구성되었다. 
- 각 변수는 이미지의 픽셀을 의미하며, 변수값은 픽셀의 명도를 나타낸다. 
- 픽셀의 명도는 0~1 사이의 값을 가진다. 

<br/>
- training set은 6만건의 데이터로 이루어져있고,
- test set은 만건의 데이터로 이루어져있다. 



#### 결측값 확인
```{r}
sum(is.na(mnist.train)) ;sum(is.na(mnist.test))
```
- 결측값은 하나도 없다. 그럼 기분좋게 분석을 시작해보도록 하자!





# Knn (with LOOCV)
- Knn classification이란, 해당 데이터와 거리가 가장 가까운 데이터들을 참고해서 분류분석하는 방법이다. 
- 예림이의 성적을 알고 싶다면, 예림이의 친한 친구들의 성적을 참고해서, 예림이의 성적을 유추해보는 것과 같은 알고리즘이다. - Knn을 LOOCV를 이용해서 분석해보았다. 

```{r, echo=FALSE}
library(class)
set.seed(1234)
error<-list()
predict.knn <- list()

for (i in 1:10){
  predict.knn[[i]] <- knn.cv(mnist.train[,-1],
                   mnist.train[,1],k=1)
}
```


```{r}
error <- list()
for ( i in 1:10){
error[[i]]<-mean(predict.knn[[i]]!=mnist.test[,1])
}

error.list <- unlist(error)
error.list
```

- k=1,2,```,10의 결과가 모두 동일하다. error rate(0.0309)가 모두 같다. 
```{r}
mean(predict.knn[[1]]== as.factor(mnist.test[,1])) #accuracy rate

```
- knn의 accuracy rate는 0.9691로 나왔다. 

```{r}

table(predict.knn[[1]], as.factor(mnist.test[,1]))

```

- k=1인 경우로 놓고 구한 confustion matrix이다. 
- 특별한 규칙성이나 경향은 보이지 않는다. 
- 실제값은 4인데, 9로 misclassify한 경우가 22건으로 가장 많고, 
- 두번째로 많은 misclassification은 실제값이 3인것을 5로 misclassify한 경우이다. 

> 랜덤포레스트로 넘어가보자. 

***



# randomforest
```{r}
library(randomForest)
set.seed(1)
rf.h<-randomForest(as.factor(y)~.,data=mnist.train,mtry=28,importance=T)
rf.h


```
- 랜덤포레스트 결과이다. 
- split은 $\sqrt 785 = 28$로 놓고 풀었다. 
- OOB error rate는 약 2.96%이다. 결과가 정말 좋다. 오류가 이렇게나 적다니...!
- 각 숫자의 class error rate를 살펴보면 **3**, **8**, **9**의 error rate가 각각 0.042, 0.044, 0.047로 비교적 높게 나왔다.
- 3,8,9 -> 이 세 숫자 모양이 비슷해서 그런 것 같다. 
- 실제로 confusion matrix를 통해 misclassification한 것을 보면  3과 8,9를 서로 혼동해서 classification 한 경우가 많다는 것을 볼 수 있다. 
- knn에서는 오분류에대한 어떤 특정한 경향이 안 보였는데, 

> 오류를 줄이고 싶다면, 3,8,9를 잘 구분할 수 있도록 학습 시키는 것이 중요하겠다. 


```{r include=FALSE}
yhat.rf<-predict(rf.h,newdata=mnist.test)

```

```{r}
mean(yhat.rf!=mnist.test$y); mean(yhat.rf==mnist.test$y)
```
- randomforest로 분석했을 때의 error rate는 0.0288이다.
- accuracy rate는 0.9712이다.  

<br/>

#### variance importance plot
```{r, fig.width=15, fig.height=15}
# importance(rf.h)
varImpPlot(rf.h)
```


```{r message=FALSE, warning=FALSE}
tmp <- importance(rf.h)
tmp <- as.data.frame(tmp)

# mean decrease accuracy를 이용해 가장 많은 영향을 주는 변수 상위 10개를 골랐다. 
head(order(tmp$MeanDecreaseAccuracy, decreasing=T), n=10)
```

```{r}
# mean decrease gini를 통해 살펴본 상위 10개 변수@@@
head(order(tmp$MeanDecreaseGini, decreasing=T), n=10)
```
- 어떤 변수가 중요한 영향을 미치는지 살펴보았는데, 현 데이터에서는 큰 의미가 없는 것 같다. 
- 이미지 데이터에서는 변수가 중요한 의미를 가지지 않기 때문이다..... 

> 마지막으로 boosting을 해보자. 

***

# Boosting
```{r include=FALSE}
library(maboost)
result.boosting <- maboost(mnist.train[,-1], 
                  as.factor(mnist.train$y))

```

```{r}
result.boosting
mean(result.boosting$fit == mnist.train$y) #accuracy

```
- boosting 결과가 생각보다 좋게 나오지 않았다. 
- accaracy rate는 0.8840이고, error rate는 0.1160.
- OOB error는 0.127로 나왔다(test error의 추정값이라 생각하면 된다)
- boosting은 원래 binary output에 최적화된건데, 우리 데이터는 multiclass output이어서 모형적합도가 떨어지는 것 같다. 

***



# Summary
```{r message=FALSE, warning=FALSE, echo=FALSE}
options(knitr.table.format="html")
options(kableExtra.auto_format=F)

library(kableExtra)
names <- c("Knn","RF","Boosting")
Acc <- c(0.9691, 0.97,0.88)
error <- c(0.031, 0.029, 0.116)
ET <- c("19h","6h","2h")
Remarks <- c("계산시간 너무 오래 걸림",
             "boosting보다 짧은 계신시간에 비슷한 정확도",
             "계산시간 매우 짧으나, 정확도가 너무 낮아서 아쉬움 ")
names(Acc) <- names
names(error) <- names
names(ET) <- names
names(Remarks) <- names
df <- as.data.frame(cbind(Acc,error, ET, Remarks))


kable(df, row.names = T, format="html")%>% 
  kable_styling(bootstrap_options = c("striped","hover"),full_width=F) %>% 
  column_spec(4, width = "3em" )
```

- knn, randomforest, boosting 이상 3개 방법을 종합해보았다. 
- 나라면 조금 오래 걸리더라도 randomforest로 분석할 것 같다. 

> 끝!!!