Hôm nay Nhi muốn giới thiệu với các bạn một công cụ rất hay trong R là recipes.

1 Giới thiệu về 2 tác giả

Package recipes là sản phẩm của hai tác giả: Hadley Wickham và Max Kuhn. Danh tiếng của hai nhân vật này trong cộng đồng R users chắc các bạn đã biết rõ. Và nếu bạn từng trải nghiệm những packages khác của 2 cao thủ này, bạn có thể hình dung về sự tiện dụng và ý nghĩa quan trọng của package recipes mà Nhi sắp giới thiệu.

Thực vậy, tất cả những công cụ do H. Wickham và Max Kuhn tạo ra không chỉ đơn giản là những ứng dụng có mục tiêu hạn hẹp, chuyên biệt nhắm vào một quy trình, một thuật toán nào đó như những package khác, nhưng đặt ra một nền tảng phổ quáthơn rất nhiều. Những công cụ này đã làm thay đổi cách thức làm việc trong R, từ quy trình cho đến phong cách viết code, và bản thân cấu trúc ngữ pháp của R code. Từ khi có ggplot2, người ta viết code đồ họa hoàn toàn khác với thời sơ khai, từ khi có tidyverse, dplyr và pipes thì phong cách R codes thay đổi hoàn toàn so với quá khứ. Tương tự, package caret của Max Kuhn đã phổ biến Machine learning đến mọi người, hầu như tất cả R users bắt đầu học về Machine Learning qua caret trước khi họ có thể tự code những algorithm phức tạp khác.

Khi Wickham và Max Kuhn cùng ngồi lại với nhau và tạo ra 1 package như recipes, các bạn có thể dự đoán: Đây sẽ là một giao thức phổ quát, một hệ ngôn ngữ mới nằm trong ngôn ngữ R,và nó sẽ làm thay đổi cách làm việc của bạn.

2 Ý tưởng về nấu ăn

Trong quá trình thực hành thống kê, Nhi nhận ra sự tương đồng thú vị giữa việc phân tích dữ liệu và nấu ăn, và nhiều lần Nhi đã sử dụng việc nấu ăn để minh họa cho các ý tưởng về thống kê. Ý tưởng này chính là nguyên tắc của package recipes: các hàm quan trọng của package này nhằm mô phỏng một quy trình chế biến món ăn, cụ thể là làm bánh: gồm hàm recipe(), prep( ), juice( ) và bake( )

Trước khi đi vào chi tiết, ta sẽ tóm tắt lại quy trình nấu ăn/thống kê:

Cùng một dữ liệu gốc, ta có thể dựng nhiều mô hình thống kê khác nhau - giống như từ những nguyên liệu trong tự nhiên như thịt, cá, rau, củ, gia vị… nhiều món ăn khác nhau có thể được tạo thành.

Mỗi mô hình thống kê có những yêu cầu khác nhau về cấu trúc, nội dung dữ liệu đầu vào, do đó dữ liệu gốc phải trải qua các bước xử lý chuyên biệt tùy theo mỗi loại mô hình, bao gồm chọn lọc biến, hoán chuyển,tạo biến mới, giảm chiều thông tin, … tương tự như mỗi món ăn đòi hỏi nguyên liệu phải được sơ chế phù hợp và thêm bớt gia vị. Thí dụ từ cá hồi, có thể làm món nướng, kho hay ăn sống như sushi.

Quy trình chuẩn bị, sơ chế, tẩm ướp nguyên liệutrở thành một bí quyết cho mỗi món ăn, và được đúc kết lại trong sách vở thành những “công thức nấu nướng” (recipes). Một bà nội trợ sau khi ăn Sushi tại nhà hàng thường có ý định tự thực hiện món ăn này tại nhà, điều đầu tiên cô ta sẽ làm là mua một quyển sách hướng dẫn làm sushi hay tìm công thức trên mạng. Lúc này, ý tưởng chỉ nằm trên giấy,bao gồm mô tả về bao nhiêu nguyên liệu cần chuẩn bị,cách rửa, cắt xén,sơ chế, ướp gia vị…

Tương tự, quy trình chuẩn bị dữ liệu cho mô hình thống kê thường được giảng dạy trong trường lớp hay sách vở và ghi trong trí nhớ của nghiên cứu sinh dưới dạng những công thức. Vào lúc này, thứ mà họ có chỉ là ý tưởng và chỉ dẫn, với các nguyên tắc,công thức toán và thứ tự thực hiện, nhưng chưa thực sự được thi hành trên bất cứ dữ liệu nào.

Trước kia, việc chuyển từ lý thuyết sang thi hành những ý tưởng, quy trình, công thức trên R codes thường rất thủ công và tủn mủn, manh mún. Thí dụ một sinh viên có thể hiểu rõ bản chất của Box-Cox transformation là gì, hay chuẩn hóa là gì, nhưng không biết phải viết R code như thế nào. Ta thường phải tìm trên mạng những R codes rải rác cho mỗi quy trình, và mỗi lần như vậy lại có một hàm mới lạ, với cú pháp khác nhau, tên gọi thường chẳng ăn nhập gì đến mục tiêu. CÓ khi một quy trình phải qua trung gian nhiều hàm khác nhau, của nhiều package khác nhau…

Chưa hết, khó khăn còn ở chỗ đa số các hàm trong R chỉ thao tác trên từng vector đơn lẻ. Khi ta muốn thực hiện hàng loạt một quy trình cho toàn bộ dữ liệu, ta lại phải học thêm các hàm như apply, map hoặc phải viết code cho vòng lặp…

Một vấn đề tế nhị khác lại nảy sinh khi thứ gọi là Machine learning bắt đầu phổ biến như một cách suy diễn thống kê mới. Theo trường phái này, chúng ta không chỉ làm việc trên 1 tập dữ liệu nguyên thủy duy nhất, mà thường cắt dữ liệu thành 2 phần là trainset và Testset. Những quy trình trước kia ta chỉ cần làm 1 lần, nay ta phải làm đến 2 lần trên mỗi tập dữ liệu train và test. Chưa hết, điểm phức tạp nằm ở chỗ: ta không được nhìn vào bên trong testset để giữ tính độc lập tuyệt đối của nó, do đó các tham số trong quy trình hoán chuyển dữ liệu (thí dụ Mean trong centering, sd trong hàm scale, Lambda trong Box-Cox, centroid trong knn Imputation, PCA) đều dựa vào trainset, ngay cả khi áp dụng trên testset. Như vậy việc sơ chế dữ liệu trở thành một Mô hình hay 1 Hàm, được xác định trên trainset rồi áp dụng trên chính trainset hay dữ liệu mới là testset.

Điều này tương tự như công thức làm món Maki sushi, bà nội trợ sau khi thực hành công thức học được từ sách trên nguyên liệu là Maki, bà ta sẽ rút ra được kinh nghiệm của chính bản thân, từ đó cải biên ra một bí quyết, công thức của riêng mình. Sau đó bà ta có thể áp dụng công thức này cho một nguyên liệu mới là cá Ngừ và tạo ra món ăn mới là Maki cá ngừ.

3 Viết công thức nấu ăn: hàm recipe( )

Sau khi tải package recipes, việc đầu tiên ta có thể làm là tạo ra 1 công thức, hàm recipe()

Muốn tạo 1 công thức, đầu tiên phải dựa vào 1 object dữ liệu. Nhi sẽ dùng chính dataset biomass trong package recipes:

library(recipes)

bio_train<- biomass[biomass$dataset == "Training",]
bio_test <- biomass[biomass$dataset == "Testing",]

bio_train%>%head()%>%knitr::kable()
sample dataset carbon hydrogen oxygen nitrogen sulfur HHV
Akhrot Shell Training 49.81 5.64 42.94 0.41 0.00 20.008
Alabama Oak Wood Waste Training 49.50 5.70 41.30 0.20 0.00 19.228
Alder Training 47.82 5.80 46.25 0.11 0.02 18.299
Alfalfa Training 45.10 4.97 35.60 3.30 0.16 18.151
Alfalfa Seed Straw Training 46.76 5.40 40.72 1.00 0.02 18.450
Alfalfa Stalks Training 45.40 5.75 40.20 2.04 0.10 18.465

Đưa object bio_train vào hàm recipe, ta có 1 công thức sơ khai tên là rec. Dùng hàm summary, ta có thể xem cấu trúc dữ liệu trong công thức: 2 cột variable và type dễ hiểu: chính là tên biến và định dạng. Ta chú ý đến cột role: đây là một thuộc tính dữ liệu cho phép ta quy định vai trò của từng biến trong công thức. Điều này quan trọng vì sau này có một số can thiệp chỉ được làm trên predictors, hoặc outcome, cũng như một số biến không có vai trò nào cả trong mô hình.

rec<-recipe(bio_train)

summary(rec)
## # A tibble: 8 x 4
##   variable type    role  source  
##   <chr>    <chr>   <lgl> <chr>   
## 1 sample   nominal NA    original
## 2 dataset  nominal NA    original
## 3 carbon   numeric NA    original
## 4 hydrogen numeric NA    original
## 5 oxygen   numeric NA    original
## 6 nitrogen numeric NA    original
## 7 sulfur   numeric NA    original
## 8 HHV      numeric NA    original

Để đặt vai trò cho mỗi biến, có hai cách: hoặc ta dùng công thức, hoặc ta khai báo thủ công bằng hàm add_role.

Thí dụ hàm add_role cho phép định vai trò cho từng biến như sau:

rec2<-rec%>%
  add_role(HHV,new_role = "outcome") %>%
  add_role(sample, new_role="id variable")%>%
  add_role(dataset,new_role = "splitting variable")%>%
  add_role(carbon,contains("gen"),sulfur,new_role="predictor")

summary(rec2)
## # A tibble: 8 x 4
##   variable type    role               source  
##   <chr>    <chr>   <chr>              <chr>   
## 1 sample   nominal id variable        original
## 2 dataset  nominal splitting variable original
## 3 carbon   numeric predictor          original
## 4 hydrogen numeric predictor          original
## 5 oxygen   numeric predictor          original
## 6 nitrogen numeric predictor          original
## 7 sulfur   numeric predictor          original
## 8 HHV      numeric outcome            original

Nếu dùng công thức, cú pháp có dạng: Outcome ~ Predictor + Predictor 2… , thứ gì đứng trước dấu ~ là Outcome, đứng sau là predictors. Thí dụ:

rec3<-recipe(bio_train, oxygen+nitrogen~carbon+hydrogen)

summary(rec3)
## # A tibble: 4 x 4
##   variable type    role      source  
##   <chr>    <chr>   <chr>     <chr>   
## 1 carbon   numeric predictor original
## 2 hydrogen numeric predictor original
## 3 oxygen   numeric outcome   original
## 4 nitrogen numeric outcome   original

Ta có thể cập nhật công thức bằng hàm add_role()

rec4<-recipe(HHV~.,bio_train)%>%
    add_role(sample,new_role="id variable")%>%
  add_role(dataset,new_role="splitting variable")

summary(rec4)
## # A tibble: 8 x 4
##   variable type    role               source  
##   <chr>    <chr>   <chr>              <chr>   
## 1 sample   nominal id variable        original
## 2 dataset  nominal splitting variable original
## 3 carbon   numeric predictor          original
## 4 hydrogen numeric predictor          original
## 5 oxygen   numeric predictor          original
## 6 nitrogen numeric predictor          original
## 7 sulfur   numeric predictor          original
## 8 HHV      numeric outcome            original

Bây giờ ta khảo sát sâu hơn cấu trúc của 1 công thức; nó chính là 1 list, gồm nhiều nội dung. Dữ liệu gốc được lưu trong công thức ở nội dung template:

rec2$template%>%head()%>%knitr::kable()
sample dataset carbon hydrogen oxygen nitrogen sulfur HHV
Akhrot Shell Training 49.81 5.64 42.94 0.41 0.00 20.008
Alabama Oak Wood Waste Training 49.50 5.70 41.30 0.20 0.00 19.228
Alder Training 47.82 5.80 46.25 0.11 0.02 18.299
Alfalfa Training 45.10 4.97 35.60 3.30 0.16 18.151
Alfalfa Seed Straw Training 46.76 5.40 40.72 1.00 0.02 18.450
Alfalfa Stalks Training 45.40 5.75 40.20 2.04 0.10 18.465

Công thức này chưa có 1 quy trình nào cả, nên nội dung steps là rỗng

rec2$steps
## NULL

Package recipes cung cấp đến 54 quy trình chuẩn bị, hoán chuyển dữ liệu thông dụng trong phân tích hồi quy và Machine learning, từ những thứ đơn giản nhất như cắt biến định lượng thành nhiều phần, chuẩn hóa, hoán chuyển logarit, Box-Cox, Yeo-Johnshon… cho đến những giải thuật imputation như knn, bagging, hay các thủ thuật giảm chiều dữ liệu như PCA. Điểm thú vị nhất là tất cả những quy trình này đều có chung danh pháp dạng step_tên quy trình và cú pháp đồng nhất bao gồm : đối tượng recipe cần cập nhật, các tùy chỉnh tùy theo quy trình dạng option(list), hoặc tùy chỉnh về sao lưu dữ liệu, bỏ qua, loại bỏ giá trị NA…

Thí dụ: Kết hợp quy trình centering và scale sẽ chuẩn hóa toàn bộ predictor trong công thức:

rec2%<>%
  step_center(all_predictors()) %>%
  step_scale(all_predictors())

rec2
## Data Recipe
## 
## Inputs:
## 
##                role #variables
##         id variable          1
##             outcome          1
##           predictor          5
##  splitting variable          1
## 
## Operations:
## 
## Centering for all_predictors()
## Scaling for all_predictors()

4 Thực hiện công thức này: hàm prep( )

Lưu ý là khi quy trình mới được khai báo trong công thức, nó chưa thực sự có công hiệu, quy trình cần được huấn luyện bằng hàm prep:

Quá trình huấn luyện này cũng giống như người nội trợ thực hành công thức nấu ăn trên nguyên liệu thực tế (trainset), sau khi thực hành công thức lý thuyết mới trở thành bí quyết nấu ăn của bản thân người đó. Điều này quan trọng vì nhiều quy trình hoán chuyển, bổ túc dữ liệu chỉ mới là những hàm rỗng, chưa có tham số bên trong. Những tham số này chỉ được hình thành sau khi quy trình được huấn luyện trên trainset, khi đó chúng mới thực sự có khả năng làm việc.

Thí dụ ta dùng hàm prep để kích hoạt một quy trình chuẩn hóa và thực sự tạo ra 1 công thức hay hàm “chuẩn hóa dữ liệu” :

Lưu ý tùy chỉnh retain: nếu bạn muốn dùng kết quả huấn luyện này cho chính tập train, thay thế trainset bằng dữ liệu mới sau hoán chuyển, bạn sẽ đặt retain=T, lúc này template dữ liệu trong công thức mới sẽ bị thay thế bằng kết quả sau hoán chuyển

rec_trainedR<-prep(rec2,training=bio_train,retain=T)

rec_trained<-prep(rec2,training=bio_train,retain=F)


rec_trained$template%>%head%>%knitr::kable()
sample dataset carbon hydrogen oxygen nitrogen sulfur HHV
Akhrot Shell Training 49.81 5.64 42.94 0.41 0.00 20.008
Alabama Oak Wood Waste Training 49.50 5.70 41.30 0.20 0.00 19.228
Alder Training 47.82 5.80 46.25 0.11 0.02 18.299
Alfalfa Training 45.10 4.97 35.60 3.30 0.16 18.151
Alfalfa Seed Straw Training 46.76 5.40 40.72 1.00 0.02 18.450
Alfalfa Stalks Training 45.40 5.75 40.20 2.04 0.10 18.465
rec_trainedR$template%>%head%>%knitr::kable()
sample dataset carbon hydrogen oxygen nitrogen sulfur HHV
Akhrot Shell Training 0.1398746 0.1511606 0.4078940 -0.5516292 -0.4938064 20.008
Alabama Oak Wood Waste Training 0.1100906 0.2012910 0.2563886 -0.7259349 -0.4938064 19.228
Alder Training -0.0513192 0.2848415 0.7136763 -0.8006373 -0.4482289 18.299
Alfalfa Training -0.3126493 -0.4086283 -0.2701851 1.8471481 -0.1291863 18.151
Alfalfa Seed Straw Training -0.1531611 -0.0493608 0.2028075 -0.0619134 -0.4482289 18.450
Alfalfa Stalks Training -0.2838262 0.2430663 0.1547691 0.8013144 -0.2659188 18.465

5 Sơ chế nguyên liệu: hàm juice( )

Khi ta vừa muốn tạo ra 1 công thức, vừa muốn áp dụng chính công thức này cho trainset, ta phải đặt retain=T và sau đó có thể dùng hàm juice(), như vậy kết quả của hàm juice chính là một dataset mới sau hoán chuyển, và có nội dung giống y như tempate của công thức sau hàm prep() với tùy chỉnh retain=T

og_values <- juice(rec_trainedR, all_predictors())

og_values%>%head%>%knitr::kable()
carbon hydrogen oxygen nitrogen sulfur
0.1398746 0.1511606 0.4078940 -0.5516292 -0.4938064
0.1100906 0.2012910 0.2563886 -0.7259349 -0.4938064
-0.0513192 0.2848415 0.7136763 -0.8006373 -0.4482289
-0.3126493 -0.4086283 -0.2701851 1.8471481 -0.1291863
-0.1531611 -0.0493608 0.2028075 -0.0619134 -0.4482289
-0.2838262 0.2430663 0.1547691 0.8013144 -0.2659188

6 Áp dụng công thức: hàm bake( )

Cuối cùng, khi ta muốn áp dụng quy trình này cho một dataset mới, thí dụ testset, ta chỉ cần dùng hàm bake().Lưu ý rằng khi làm điều này, thực chất ta đang chuẩn hóa testset dựa vào mean và sd của trainset,điều này có nghĩa là ngay cả khi mô hình được tạo ra từ trainset cũng chưa hề “nhìn thấy” qua nội dung testset và do đó kết quả kiểm định mới đáng tin cậy.

test_values <- bake(rec_trained, newdata=bio_test,all_predictors())

test_values%>%head%>%knitr::kable()
carbon hydrogen oxygen nitrogen sulfur
-0.1925527 0.1762258 0.8014386 -0.6429322 0.0075463
-0.4903923 0.0341898 0.8808866 1.4736361 0.2810114
-0.5432348 0.0341898 0.9769632 1.1001240 0.1898564
-0.1877489 0.5354933 -0.1131368 0.6021080 0.6456315
0.0389935 0.7193046 0.3921892 -0.7259349 -0.4938064
-0.3895111 0.0341898 0.2933412 -0.3109215 -0.0380312

7 Kết luận

recipes là một package thú vị và hữu ích. Xuất phát từ ý tưởng “Công thức nấu ăn”, công cụ này đã tạo ra một cách thức hoàn toàn mới cho việc hoán chuyển và chuẩn bị dữ liệu trước khi dựng mô hình thống kê. Cách làm này đã khắc phục tất cả những trở ngại, khó khăn trong quá khứ như:

  1. Nhiều quy trình thông dụng đã được tích hợp sẵn trong recipes với danh pháp hàm dễ nhớ, cú pháp đơn giản; ta không cần phải tìm kiếm xa xôi và nhớ từng hàm một

  2. Có thể kết hợp nhiều quy trình với nhau một cách thứ bậc, thí dụ Imputation trước, sau đó chuẩn hóa, rồi hoán chuyển, làm PCA hay lọc biến số.

  3. Áp dụng quy trình cho hàng loạt biến trong dữ liệu,

  4. Xử lý trainset và testset độc lập.

Chúc các bạn “nấu ăn ngon” với package recipes

