Motivations
Hiện tại R có rất nhiều Packages cho phân tích chuỗi dữ liệu thời gian (Time Series) và một trong số đó là tidyquant được viết bởi Joshua Ulrich.
Đối với điều kiện của Việt Nam, để sử dụng được các hàm của gói này chẳng hạn thì khó khăn đầu tiên là việc lấy dữ liệu của các công ti niêm yết.
Giải quyết vấn đề này bạn Khánh đã viết hàm getSymbols() và hiện này đã là một bộ phận của VNDS package. Tuy nhiên package này hoạt động không ổn định và sẽ không sử dụng được trong một số tình huống. Giải quyết triệt để vấn đề này có lẽ cần phải lấy dữ liệu qua giao thức API nhưng việc này có thể cần thời gian làm việc với VNDIRECT (và có thể phải viết lại hoàn toàn package này).
Mặc dù R và R packages đều công khai mã nguồn nhưng sẽ là hợp lí hơn khi chúng ta không sử dụng nguyên các hàm mà các tác giả khác đã viết, hoặc viết một hàm mà công năng phân tích không có gì mới hoặc không bằng cái đã có. Hàm getSymbols() của package VNDS cũng là một hàm của tidyquant. Ý tưởng của hàm getSymbols() (của package tidyquant) chúng ta có thể tiếp thu nhưng lấy luôn cả tên hàm là điều cần cân nhắc vì nhiều lí do.
Vì lí do đó, tôi viết một hàm có tên get_transData_VND() để lấy thông tin giao dịch của một mã cổ phiếu với đầu vào là:
- Mã cổ phiếu được chọn,
- Ngày bắt đầu lấy dữ liệu,
- Ngày cuối cùng lấy dữ liệu.
Kết quả của hàm này là một data frame/tibble và với dữ liệu thu được chúng ta có thể áp dụng tất cả các hàm, các mô hình phân tích cho Time Series của gói tidyquant.
# Clear work space:
rm(list = ls())
# Load some R packages:
library(rvest)
library(tidyverse)
library(lubridate)
#===============================================================
# Function collect all transaction data with inputs are:
# (1) ticker selected, (2) start date, and end date.
#===============================================================
get_transData_VND <- function(symbol, from_Date, end_Date) {
#-------------------------------------------------------------------------
# Stage 1: Create HTML form, send request and collect transaction data
# and collects stock transactions for a specific page selected
#-------------------------------------------------------------------------
url <- "https://www.vndirect.com.vn/portal/thong-ke-thi-truong-chung-khoan/lich-su-gia.shtml"
page_session <- html_session(url)
pgform <- html_form(page_session) %>% .[[1]]
get_transaction_data <- function(page_index) {
filled_form <- set_values(form = pgform,
pagingInfo.indexPage = page_index,
searchMarketStatisticsView.symbol = symbol,
strFromDate = from_Date,
strToDate = end_Date)
submit_form(page_session, filled_form) %>%
read_html() -> page_content
page_content %>%
html_nodes(".lichsugia div") %>%
html_text() %>%
matrix(ncol = 10, byrow = TRUE) %>%
data.frame() %>%
slice(-1) %>%
select(-2) %>%
mutate(X1 = as.character(X1)) %>%
mutate(X1 = str_replace_all(X1, "[^0-9]", "")) %>%
mutate(X1 = ymd(X1)) %>%
mutate_if(is.factor, function(x) {as.character(x)}) %>%
mutate_if(is.character, function(x) {as.numeric(x)}) -> df_price
names(df_price) <- c("date", "open", "high", "low", "close",
"average", "adjusted", "volume", "reconcile_volume")
return(df_price)
}
#------------------------------------------------------------------
# Stage 2: Extract the last page and return all transaction data
#------------------------------------------------------------------
filled_form_for_pages <- set_values(form = pgform,
searchMarketStatisticsView.symbol = symbol,
strFromDate = from_Date,
strToDate = end_Date)
submit_form(page_session, filled_form_for_pages) %>%
read_html() -> page_content_pages
page_content_pages %>%
html_nodes(".paging") %>%
html_text() %>%
str_extract("/[0-9]{1,100}") %>%
str_replace_all("[^0-9]", "") %>%
as.numeric() -> n_pages
if (is.na(n_pages)) {
final_df <- get_transaction_data(page_index = 1) %>%
mutate(symbol = str_to_upper(symbol)) %>%
select(symbol, everything())
} else {
lapply(1:n_pages, get_transaction_data) -> all_data_list
final_df <- do.call("bind_rows", all_data_list) %>%
mutate(symbol = str_to_upper(symbol)) %>%
select(symbol, everything())
}
return(final_df)
}
# Use the function:
symbol <- "vnm"
from_Date <- "01/01/2018"
end_Date <- "01/02/2019"
get_transData_VND(symbol = symbol, from_Date = from_Date, end_Date = end_Date) -> df_vnm
# Results by data frame:
df_vnm %>% head()
## symbol date open high low close average adjusted volume
## 1 VNM 2019-02-01 135.8 135.8 133.0 135.0 134.40 133.425 731430
## 2 VNM 2019-01-31 136.5 136.5 133.5 135.0 135.56 133.425 812290
## 3 VNM 2019-01-30 136.6 136.6 135.5 135.5 135.92 133.920 279280
## 4 VNM 2019-01-29 137.0 137.0 135.5 136.5 136.09 134.908 371010
## 5 VNM 2019-01-28 136.5 136.6 135.9 136.5 136.22 134.908 487650
## 6 VNM 2019-01-25 136.0 136.3 135.6 135.9 136.06 134.315 813810
## reconcile_volume
## 1 37520
## 2 350000
## 3 108420
## 4 27000
## 5 128480
## 6 162260

Applications
Sau khi đã có data chúng ta có thể sử dụng tidyquant cho phân tích. Ví dụ:

df_vnm %>%
ggplot(aes(x = date, y = close, open = open, high = high, low = low, close = close)) +
geom_candlestick() +
geom_bbands(ma_fun = SMA, sd = 2, n = 20) +
labs(title = "VNM Candlestick Chart",
subtitle = "BBands with SMA Applied",
caption = "Data Source: https://www.vndirect.com.vn",
y = "Closing Price",
x = NULL)

Limitations
Hàm get_transData_VND() có thể được hiệu chỉnh tùy và tùy biến nếu giao diện và cấu trúc web bị thay đổi. Nhưng cách làm này có lẽ chỉ phù hợp với các dự án mang tính thời điểm. Về lâu dài chúng ta cần một giải pháp triệt để hơn: lấy dữ liệu qua giao thức API.
Tương tự chúng ta có thể viết một hàm lấy thông tin giao dịch cho cổ phiếu niêm yết từ cophieu68.
---
title: "Scraping Data from VNDIRECT Securities Corporation"
author: "Nguyen Chi Dung"
subtitle: "Data Scraping Series"
output:
  html_document:
    code_download: yes
    # code_folding: hide
    highlight: zenburn
    theme: flatly
    toc: yes
    toc_float: yes
  word_document:
    toc: yes
---

```{r setup,include=FALSE}
knitr::opts_chunk$set(echo = TRUE, warning = FALSE, message = FALSE, fig.retina=2)
```

# Motivations

Hiện tại R có rất nhiều Packages cho phân tích chuỗi dữ liệu thời gian (Time Series) và một trong số đó là [tidyquant](https://cran.r-project.org/web/packages/tidyquant/index.html) được viết bởi [Joshua Ulrich](https://www.joshuaulrich.com/resume.html). 


Đối với điều kiện của Việt Nam, để sử dụng được các hàm của gói này chẳng hạn thì khó khăn đầu tiên là việc lấy dữ liệu của các công ti niêm yết. 

Giải quyết vấn đề này bạn Khánh đã viết hàm [getSymbols()](https://github.com/phamdinhkhanh/VND/blob/master/R/getSymbols.R) và hiện này đã là một bộ phận của [VNDS package](http://rpubs.com/phamdinhkhanh/388499). Tuy nhiên package này hoạt động không ổn định và sẽ không sử dụng được trong một số tình huống. Giải quyết triệt để vấn đề này có lẽ cần phải lấy dữ liệu qua giao thức API nhưng việc này có thể cần thời gian làm việc với [VNDIRECT](https://www.vndirect.com.vn/) (và có thể phải viết lại hoàn toàn package này). 


Mặc dù R và R packages đều công khai mã nguồn nhưng sẽ là hợp lí hơn khi chúng ta không sử dụng nguyên các hàm mà các tác giả khác đã viết, hoặc viết một hàm mà công năng phân tích không có gì mới hoặc không bằng cái đã có. Hàm **getSymbols()** của package VNDS cũng là một hàm của tidyquant. Ý tưởng của hàm getSymbols() (của package tidyquant) chúng ta có thể tiếp thu nhưng lấy luôn cả tên hàm là điều cần cân nhắc vì nhiều lí do. 

Vì lí do đó, tôi viết một hàm có tên **get_transData_VND()** để lấy thông tin giao dịch của một mã cổ phiếu với đầu vào là: 

1. Mã cổ phiếu được chọn, 
2. Ngày bắt đầu lấy dữ liệu, 
3. Ngày cuối cùng lấy dữ liệu. 

Kết quả của hàm này là một data frame/tibble và với dữ liệu thu được chúng ta có thể áp dụng tất cả các hàm, các mô hình phân tích cho Time Series của gói tidyquant. 



```{r}

# Clear work space: 

rm(list = ls())

# Load some R packages: 

library(rvest)
library(tidyverse)
library(lubridate)


#===============================================================
#    Function collect all transaction data with inputs are: 
#    (1) ticker selected, (2) start date, and end date. 
#===============================================================


get_transData_VND <- function(symbol, from_Date, end_Date) {
  
  #-------------------------------------------------------------------------
  #  Stage 1: Create HTML form, send request and collect transaction data
  #  and collects stock transactions for a specific page selected
  #-------------------------------------------------------------------------
  
  url <- "https://www.vndirect.com.vn/portal/thong-ke-thi-truong-chung-khoan/lich-su-gia.shtml"
  page_session <- html_session(url)               
  pgform <- html_form(page_session) %>% .[[1]]
  
  
  get_transaction_data <- function(page_index) {
    
    filled_form <- set_values(form = pgform, 
                              pagingInfo.indexPage = page_index, 
                              searchMarketStatisticsView.symbol = symbol, 
                              strFromDate = from_Date, 
                              strToDate = end_Date)
    
    
    submit_form(page_session, filled_form) %>% 
      read_html() -> page_content
    
    page_content %>% 
      html_nodes(".lichsugia div") %>%
      html_text() %>% 
      matrix(ncol = 10, byrow = TRUE) %>% 
      data.frame() %>% 
      slice(-1) %>% 
      select(-2) %>% 
      mutate(X1 = as.character(X1)) %>% 
      mutate(X1 = str_replace_all(X1, "[^0-9]", "")) %>% 
      mutate(X1 = ymd(X1)) %>% 
      mutate_if(is.factor, function(x) {as.character(x)}) %>% 
      mutate_if(is.character, function(x) {as.numeric(x)}) -> df_price
    
    names(df_price) <- c("date", "open", "high", "low", "close", 
                         "average", "adjusted", "volume", "reconcile_volume")
    
    return(df_price)
    
  }
  
  #------------------------------------------------------------------
  #  Stage 2: Extract the last page and return all transaction data
  #------------------------------------------------------------------
  
  
  filled_form_for_pages <- set_values(form = pgform, 
                                      searchMarketStatisticsView.symbol = symbol, 
                                      strFromDate = from_Date, 
                                      strToDate = end_Date)
  
  
  submit_form(page_session, filled_form_for_pages) %>% 
    read_html() -> page_content_pages
  
  
  page_content_pages %>% 
    html_nodes(".paging") %>% 
    html_text() %>%  
    str_extract("/[0-9]{1,100}") %>% 
    str_replace_all("[^0-9]", "") %>% 
    as.numeric() -> n_pages

  
  if (is.na(n_pages)) {
    final_df <- get_transaction_data(page_index = 1) %>% 
      mutate(symbol = str_to_upper(symbol)) %>% 
      select(symbol, everything())
  } else {
    
    lapply(1:n_pages, get_transaction_data) -> all_data_list
    
    final_df <- do.call("bind_rows", all_data_list) %>% 
      mutate(symbol = str_to_upper(symbol)) %>% 
      select(symbol, everything())
  }
  
  return(final_df)
  
}


# Use the function: 

symbol <- "vnm"
from_Date <- "01/01/2018"
end_Date <- "01/02/2019"

get_transData_VND(symbol = symbol, from_Date = from_Date, end_Date = end_Date) -> df_vnm


# Results by data frame: 
df_vnm %>% head()


# Results by plot: 
df_vnm %>% 
  ggplot(aes(date, open)) + 
  geom_line() + 
  labs(x = "Price", y = "Date", 
       title = "Open Price for Vinamilk (VNM) from Jan-2018 to Jan-2019", 
       caption = "Data Source: https://www.vndirect.com.vn")

```

# Applications

Sau khi đã có data chúng ta có thể sử dụng **tidyquant** cho phân tích. Ví dụ: 

```{r}
library(tidyquant)
theme_set(theme_tq())


df_vnm %>%
  ggplot(aes(date, adjusted)) +
  geom_line(color = palette_light()[[1]]) + 
  scale_y_log10() +
  geom_smooth(method = "lm") +
  labs(title = "VNM Line Chart", 
       subtitle = "Log Scale, Applying Linear Trendline", 
       caption = "Data Source: https://www.vndirect.com.vn", 
       y = "Adjusted Closing Price", 
       x = NULL)



df_vnm %>%
  ggplot(aes(x = date, y = close, open = open, high = high, low = low, close = close)) +
  geom_candlestick() +
  geom_bbands(ma_fun = SMA, sd = 2, n = 20) + 
  labs(title = "VNM Candlestick Chart", 
       subtitle = "BBands with SMA Applied", 
       caption = "Data Source: https://www.vndirect.com.vn", 
       y = "Closing Price", 
       x = NULL)
```


# Limitations

Hàm **get_transData_VND()** có thể được hiệu chỉnh tùy và tùy biến nếu giao diện và cấu trúc web bị thay đổi. Nhưng cách làm này có lẽ chỉ phù hợp với các dự án mang tính thời điểm. Về lâu dài chúng ta cần một giải pháp triệt để hơn: lấy dữ liệu qua giao thức API. 

Tương tự chúng ta có thể viết một hàm lấy thông tin giao dịch cho cổ phiếu niêm yết từ [cophieu68](https://www.cophieu68.vn/). 


