Our Challenges
Trong post trước chúng ta đã làm quen với việc xây dựng một Recommender Engine từ khâu xử lí dữ liệu - chuẩn bị dữ liệu đến huấn luyện Recommender Engine. Là một case thuộc kiểu Toy Example nên bộ dữ liệu được lựa chọn một cách cố ý theo hướng đẹp và rất đầy đủ thông tin, nhất là ratings của những bộ phim. Đối với một hệ thống khuyến nghị thì ratings là một “nguyên liệu” không thể thiếu. Tuy nhiên thực tế thì không phải lúc nào chúng ta cũng có thông tin tối quan trọng này. Post này sẽ hướng dẫn xây dựng và huấn luyện một Recommender khi không có thông tin về ratings với ngôn ngữ R.
About Data Used
Dữ liệu sử dụng trong post này là E-Commerce Data về các giao dịch thương mại điện tử của một công ti ở Anh. Download cùng với mô tả về bộ dữ liệu này có thể lấy ở đây. Đọc bộ dữ liệu này rồi xem qua:
Table 1: Some Observations from raw data
536365 |
85123A |
WHITE HANGING HEART T-LIGHT HOLDER |
6 |
12/1/2010 8:26 |
2.55 |
17850 |
United Kingdom |
536365 |
71053 |
WHITE METAL LANTERN |
6 |
12/1/2010 8:26 |
3.39 |
17850 |
United Kingdom |
536365 |
84406B |
CREAM CUPID HEARTS COAT HANGER |
8 |
12/1/2010 8:26 |
2.75 |
17850 |
United Kingdom |
536365 |
84029G |
KNITTED UNION FLAG HOT WATER BOTTLE |
6 |
12/1/2010 8:26 |
3.39 |
17850 |
United Kingdom |
536365 |
84029E |
RED WOOLLY HOTTIE WHITE HEART. |
6 |
12/1/2010 8:26 |
3.39 |
17850 |
United Kingdom |
536365 |
22752 |
SET 7 BABUSHKA NESTING BOXES |
2 |
12/1/2010 8:26 |
7.65 |
17850 |
United Kingdom |
Các tên biến số là rất dễ hiểu. Ví dụ InvoiceNo là mã hóa đơn, StockCode là mã hàng hóa và là hàng hóa gì thì được miêu tả ở Description còn CustomerID là mã khách hàng.
Recommender Engine without Ratings
Trong tình huống không có thông tin về ratings của các items chúng ta có thể xây dựng Recommender Engine từ binary matrix - là kiểu ma trận dạng như sau:
## item1 item2 item3 item4 item5
## user1 0 1 1 0 0
## user2 1 0 0 1 1
## user3 0 0 0 0 1
## user4 1 1 1 1 1
## user5 1 1 1 0 0
Trước hết chúng ta convert dữ liệu nguyên thủy ban đầu về binary data frame như sau:
Table 2: Some Observations from binary data (Option 2)
12346 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12347 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12348 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12349 |
0 |
0 |
0 |
0 |
1 |
1 |
0 |
0 |
0 |
0 |
12350 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12352 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12353 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12354 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12355 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
12356 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
Dòng 4 của Table 2 chỉ ra rằng khách hàng có mã CustomerID là 12349 mua các item có mã 22555 và 23108 - ứng với giá trị là 1 của binary data frame. Những item mà khách hàng này không mua có giá trị là 0.
Data Preparation for Recommender Engine
Đến đây cần convert binary data frame đã chuẩn bị ở trên về binary matrix - là cấu trúc dữ liệu đòi hỏi cho việc training các Recommender Engines của thư viện recommenderlab của Michael Hahsler như sau:
Binary matrix cho một số quan sát (Figure 1):

Dữ liệu là một ma trận thưa kiểu nhị phân (Binary Sparse Matrix) như chúng ta đã biết. Đây là thực tế phổ biến khi xây dựng các hệ thống khuyến nghị: hầu hét các cell của ma trận có giá trị là zero (thực chất là NA - Not Available, một vấn đề được gọi là Problem of Data Sparsity cho lớp bài toán này) dẫn đến mức độ che phủ dữ liệu của ma trận rất thấp (hầu hết là dưới 10%, mức phổ biến là 5%-6%). Với dữ liệu đã được chuyển về ma trận thưa, sử dụng 80% dữ liệu để huấn luyện Recommender Engine và 20% để test:
Vì dữ liệu đầu vào là binary sparse matrix nên thước đo tương đồng (similarity measure) theo Jaccard sẽ phù hợp hơn. R codes dưới đây thực hiện huấn luyện Recommender Engine trên train data theo Jaccard Similarity sử dụng Item-base Approach (có thể mất nhiều thời gian để train Engine):
Với Engine đã có chúng ta có thể sử dụng để khuyến nghị, ví dụ, 5 items cho mỗi một user/customer:
Viết hàm có tên item_recommended_user()
trả về các items dưới dạng StockCode được khuyến nghị cho user/customer:
Sử dụng hàm trên để extract ra các items được khuyến nghị cho tất cả các users/customers:
Join với dữ liệu về miêu tả cho items theo StockCode:
Show các items khuyến nghị cho, ví dụ, customer thứ nhất:
Table 3: Some Items Recommended for CustomerID = 12347
12347 |
20724 |
RED RETROSPOT CHARLOTTE BAG |
12347 |
20723 |
STRAWBERRY CHARLOTTE BAG |
12347 |
23204 |
CHARLOTTE BAG APPLES DESIGN |
12347 |
22355 |
CHARLOTTE BAG SUKI DESIGN |
12347 |
22730 |
ALARM CLOCK BAKELIKE IVORY |
