1. 개요
- Facebook에서 공개한 pretrained word vector을 사용해보기
- 영화평 약 100,000 건에 대한 Classification 만들어보기
- 실제 인터넷에서 문법에 맞지 않은 단어들에 대해 바로 사용이 가능한지 확인해본다
2. 영화평 데이터 설명
- 전처리는 한글만 남기는 쪽으로 최소화
- 한글영화평 10만개를 크롤링하여 준비
- Train 과 Test 셋은 8:2로 나누어 사용
- 영화 평점 분포 (1 ~ 10점)
- 각각의 스코어별로 대략 10,000여개씩 존재
- 실제 훈련시에는 -1을 빼줘서 0 ~ 9점으로 만들어서 사용
- R에서 Tensorflow돌려도 Python 위에서 돌아가기 때문에 Python Index로 맞춰줘야 하기 때문
- 이후로는 1 ~ 10점 스케일 대신 0 ~ 9점 스케일로 사용
Ignoring unknown parameters: binwidth, bins, pad

3. Pre-trained Vectors 설명
- fastText Github에서 Korean text를 다운로드
- 저장되어 있는 단어 수: 879129
- 단어들을 살펴보면 한글뿐만 아니라 영어 한자 이상한 글자들도 포함되어 있음
data.table
패키지 fread
로 불러오면 아래와 같은 형태로 열림
4. 결과
- R에서 기본 LSTM 모델로 약 5분 정도 학습
- Train 정확도: 0.4184086
- Test 정확도: 0.2109508
- Baseline 정확도: 10% (1/10 랜덤 선택)
- 예측해야 하는 클래스가 10개이다 보니 정확도가 낮고 오버핏 되었음
- 0점과 9점의 정확도는 그럭저럭 괜찮은데 중간 구역에 대한 예측이 어려워 정확도가 낮음
test.y
y.pred 0 1 2 3 4 5 6 7 8 9
0 682 377 326 253 210 107 95 92 82 143
1 249 294 309 241 200 145 81 67 63 52
2 169 266 248 231 189 151 88 53 39 43
3 94 211 192 252 241 168 126 65 42 27
4 55 89 121 114 126 146 93 52 32 25
5 101 155 214 250 278 351 314 187 85 41
6 38 67 84 127 144 241 258 212 141 70
7 44 66 83 106 133 226 343 444 330 177
8 75 71 101 101 122 153 257 382 489 370
9 407 340 262 288 302 244 296 432 587 936
test.sentence <- c("잼나요흥미있고 즐거운시간이었어요",
"재미없다",
"쓰레기 영화",
"볼만함",
"스토리 구성이 억지스럽다." )
tmp <- multiple.input.pipeline(test.sentence, dict, max.seq)
sess$run(y_pred, feed_dict=dict(X=tmp, dropout.p=1.0))
[1] 9 0 0 9 2
실제로 아무 영화평을 만들어서 집어넣어보니 학습이 되는중이긴 한 것 같다.
5. 결론
- 어느정도 인터넷 용어들이 들어가있긴 한데 그래도 많은 단어들이 여전히 Missing
- 한동안 한국어 NLP 처리시에는 현재로서는 선택지가 없으니 그냥 Pretrained Vectors를 사용하게 될 것 같다
6. Appendix
library(tensorflow)
rm(list=".Random.seed", envir=globalenv())
batch.size = 128L
max.step = 500L
print.every = 10L
hidden.dim = 64L
dropout = 0.5
tf$reset_default_graph()
X <- tf$placeholder(tf$int64, shape(NULL, max.seq))
y <- tf$placeholder(tf$int64, shape(NULL))
dropout.p <- tf$placeholder(tf$float32)
embed.W <- tf$Variable(embedding_m) # pretrained vectors
after.embed <- tf$nn$embedding_lookup(embed.W, X)
after.embed <- tf$cast(after.embed, tf$float32)
get.length <- function(input) {
# https://danijar.com/variable-sequence-lengths-in-tensorflow/
used <- tf$sign(tf$reduce_max(tf$abs(input), axis = 2L))
length <- tf$reduce_sum(used, axis = 1L)
length <- tf$cast(length, tf$int32)
length
}
lstm <- tf$contrib$rnn$BasicLSTMCell(hidden.dim)
result <- tf$nn$dynamic_rnn(lstm, after.embed,
dtype = tf$float32,
sequence_length = get.length(after.embed))
output <- result[[1]]
state <- result[[2]]
last.relevant <- function(output, length) {
batch_size = tf$shape(output)[0]
max_length = tf$shape(output)[1]
out_size = hidden.dim
index = tf$multiply(tf$cast(tf$range(0, batch_size), tf$int32), max_length) + tf$subtract(length, 1L)
flat = tf$reshape(output, c(-1L, out_size))
tf$gather(flat, index)
}
interest <- last.relevant(output, get.length(after.embed))
output <- interest#state$h
output <- tf$contrib$layers$fully_connected(output, hidden.dim, activation_fn=tf$nn$relu)
output <- tf$contrib$layers$dropout(output, keep_prob=dropout.p)
output <- tf$contrib$layers$linear(output, 10L)
loss <- tf$nn$sparse_softmax_cross_entropy_with_logits(logits=output, labels=y)
loss <- tf$reduce_mean(loss)
train.op <- tf$train$AdamOptimizer()$minimize(loss)
y_pred <- tf$argmax(output, axis=1L)
equal <- tf$equal(y_pred, y)
acc <- tf$reduce_mean(tf$cast(equal, tf$float32))
sess = tf$InteractiveSession()
init = tf$global_variables_initializer()
sess$run(init)
batch.generator <- function(X, y, batch_size=32, batch_idx=c()) {
if (length(batch_idx) < batch_size) {
batch_idx <- sample(1:nrow(X))
}
idx <- sample(batch_idx, size = batch_size, replace = F)
next_idx <- setdiff(batch_idx, idx)
result <- list()
result[['X']] <- X[idx, ]
result[['y']] <- y[idx]
result[['batch_idx']] <- next_idx
result[['dropout.p']] <- dropout
result
}
batch.idx <- c()
for(i in 1:max.step) {
batch <- batch.generator(train.tensor, train.y, batch.size, batch.idx)
batch.idx <- batch[['batch_idx']]
result <- sess$run(c(train.op, loss, acc),
feed_dict=dict(X=batch[['X']], y=batch[['y']], dropout.p=batch[['dropout.p']]))
if (i %% print.every == 0 | i == max.step | i == 1) {
cat(sprintf("\n[Step: %5d] Loss: %f Acc: %f", i, result[[2]], result[[3]]))
}
}
---
title: "Facebook Pretrained Word Vectors"
output: html_notebook
---
```{r include_library, include=FALSE}
library(DT)
library(ggplot2)
```

## 1. 개요
- Facebook에서 공개한 [pretrained word vector](https://github.com/facebookresearch/fastText)을 사용해보기
- 영화평 약 100,000 건에 대한 Classification 만들어보기
- 실제 인터넷에서 문법에 맞지 않은 단어들에 대해 바로 사용이 가능한지 확인해본다

## 2. 영화평 데이터 설명
- 전처리는 한글만 남기는 쪽으로 최소화
    - 띄어쓰기 정규화
    - 숫자 제거
    - 알파벳 제거
- 한글영화평 10만개를 크롤링하여 준비
    - Train 과 Test 셋은 8:2로 나누어 사용
```{r, echo=F}
idx <- sample(1:nrow(movie.comments), size=100, replace=F)
datatable(movie.comments[idx, c('comment', 'rating', 'movie')])
```
- 영화 평점 분포 (1 ~ 10점)
    - 각각의 스코어별로 대략 10,000여개씩 존재
    - 실제 훈련시에는 -1을 빼줘서 0 ~ 9점으로 만들어서 사용
        - R에서 Tensorflow돌려도 Python 위에서 돌아가기 때문에 Python Index로 맞춰줘야 하기 때문
        - 이후로는 1 ~ 10점 스케일 대신 0 ~ 9점 스케일로 사용
```{r, echo=F, message=F, warning=F}
g <- ggplot(data=movie.comments, aes(x=rating))
g <- g + geom_histogram(stat = "count") 
g <- g + xlab("Rating") + ylab("")
g <- g + scale_y_continuous(labels = scales::comma)
g
```


## 3. Pre-trained Vectors 설명
- [fastText Github](https://github.com/facebookresearch/fastText/blob/master/pretrained-vectors.md)에서 Korean text를 다운로드
- 저장되어 있는 단어 수: `r nrow(word.vec)`
- 단어들을 살펴보면 한글뿐만 아니라 영어 한자 이상한 글자들도 포함되어 있음
- `data.table` 패키지 `fread`로 불러오면 아래와 같은 형태로 열림
```{r, echo=F}
idx <- sample(1:nrow(word.vec), size=500, replace = F)
word.vec[idx, ]
```

## 4. 결과
- R에서 기본 LSTM 모델로 약 5분 정도 학습
- Train 정확도: `r sess$run(acc, feed_dict=dict(X=train.tensor, y=train.y, dropout.p=1.0)) `
- Test 정확도: `r sess$run(acc, feed_dict=dict(X=test.tensor, y=test.y, dropout.p=1.0))`
- Baseline 정확도: 10% (1/10 랜덤 선택)
- 예측해야 하는 클래스가 10개이다 보니 정확도가 낮고 오버핏 되었음
- 0점과 9점의 정확도는 그럭저럭 괜찮은데 중간 구역에 대한 예측이 어려워 정확도가 낮음
```{r, eval=T, echo=F}
y.pred <- sess$run(y_pred, feed_dict=dict(X=test.tensor, dropout.p=1.0))
table(y.pred, test.y)
```

```{r, eval=T, echo=T}
test.sentence <- c("잼나요흥미있고 즐거운시간이었어요", 
                   "재미없다",
                   "쓰레기 영화",
                   "볼만함",
                   "스토리 구성이 억지스럽다." )
tmp <- multiple.input.pipeline(test.sentence, dict, max.seq)
sess$run(y_pred, feed_dict=dict(X=tmp, dropout.p=1.0))
```
실제로 아무 영화평을 만들어서 집어넣어보니 학습이 되는중이긴 한 것 같다.

## 5. 결론
1. 어느정도 인터넷 용어들이 들어가있긴 한데 그래도 많은 단어들이 여전히 Missing
2. 한동안 한국어 NLP 처리시에는 현재로서는 선택지가 없으니 그냥 Pretrained Vectors를 사용하게 될 것 같다

## 6. Appendix
- Tensorflow 코드
```{r eval=FALSE}
library(tensorflow)
rm(list=".Random.seed", envir=globalenv()) 
batch.size = 128L
max.step = 500L
print.every = 10L
hidden.dim = 64L
dropout = 0.5

tf$reset_default_graph()
X <- tf$placeholder(tf$int64, shape(NULL, max.seq))
y <- tf$placeholder(tf$int64, shape(NULL))
dropout.p <- tf$placeholder(tf$float32)

embed.W <- tf$Variable(embedding_m) # pretrained vectors
after.embed <- tf$nn$embedding_lookup(embed.W, X)
after.embed <- tf$cast(after.embed, tf$float32)
get.length <- function(input) {
    # https://danijar.com/variable-sequence-lengths-in-tensorflow/
    used <- tf$sign(tf$reduce_max(tf$abs(input), axis = 2L))
    length <- tf$reduce_sum(used, axis = 1L)
    length <- tf$cast(length, tf$int32)
    length
}
lstm <- tf$contrib$rnn$BasicLSTMCell(hidden.dim)
result <- tf$nn$dynamic_rnn(lstm, after.embed, 
                            dtype = tf$float32, 
                            sequence_length = get.length(after.embed))
output <- result[[1]]
state <- result[[2]]

last.relevant <- function(output, length) {
    batch_size = tf$shape(output)[0]
    max_length = tf$shape(output)[1]
    out_size = hidden.dim
    index = tf$multiply(tf$cast(tf$range(0, batch_size), tf$int32), max_length) + tf$subtract(length, 1L)
    flat = tf$reshape(output, c(-1L, out_size))
    tf$gather(flat, index)
}

interest <- last.relevant(output, get.length(after.embed))
output <- interest#state$h
output <- tf$contrib$layers$fully_connected(output, hidden.dim, activation_fn=tf$nn$relu)
output <- tf$contrib$layers$dropout(output, keep_prob=dropout.p)
output <- tf$contrib$layers$linear(output, 10L)

loss <- tf$nn$sparse_softmax_cross_entropy_with_logits(logits=output, labels=y)
loss <- tf$reduce_mean(loss)

train.op <- tf$train$AdamOptimizer()$minimize(loss)

y_pred <- tf$argmax(output, axis=1L)
equal <- tf$equal(y_pred, y)
acc <- tf$reduce_mean(tf$cast(equal, tf$float32))

sess = tf$InteractiveSession()
init = tf$global_variables_initializer()
sess$run(init)


batch.generator <- function(X, y, batch_size=32, batch_idx=c()) {
    if (length(batch_idx) < batch_size) {
        batch_idx <- sample(1:nrow(X))
    } 
    idx <- sample(batch_idx, size = batch_size, replace = F)
    next_idx <- setdiff(batch_idx, idx)
    
    result <- list()
    result[['X']] <- X[idx, ]
    result[['y']] <- y[idx]
    result[['batch_idx']] <- next_idx
    result[['dropout.p']] <- dropout
    result
}

batch.idx <- c()
for(i in 1:max.step) {
    batch <- batch.generator(train.tensor, train.y, batch.size, batch.idx)
    batch.idx <- batch[['batch_idx']]
    result <- sess$run(c(train.op, loss, acc), 
                       feed_dict=dict(X=batch[['X']], y=batch[['y']], dropout.p=batch[['dropout.p']]))
    if (i %% print.every == 0 | i == max.step | i == 1) {
        cat(sprintf("\n[Step: %5d] Loss: %f Acc: %f", i, result[[2]], result[[3]]))
    }
}
```