Our Challenges

Trong post trước chúng ta đã làm quen với việc xây dựng một Recommender Engine từ khâu xử lí dữ liệu - chuẩn bị dữ liệu đến huấn luyện Recommender Engine. Là một case thuộc kiểu Toy Example nên bộ dữ liệu được lựa chọn một cách cố ý theo hướng đẹp và rất đầy đủ thông tin, nhất là ratings của những bộ phim. Đối với một hệ thống khuyến nghị thì ratings là một “nguyên liệu” không thể thiếu. Tuy nhiên thực tế thì không phải lúc nào chúng ta cũng có thông tin tối quan trọng này. Post này sẽ hướng dẫn xây dựng và huấn luyện một Recommender khi không có thông tin về ratings với ngôn ngữ R.

About Data Used

Dữ liệu sử dụng trong post này là E-Commerce Data về các giao dịch thương mại điện tử của một công ti ở Anh. Download cùng với mô tả về bộ dữ liệu này có thể lấy ở đây. Đọc bộ dữ liệu này rồi xem qua:

Table 1: Some Observations from raw data
InvoiceNo StockCode Description Quantity InvoiceDate UnitPrice CustomerID Country
536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6 12/1/2010 8:26 2.55 17850 United Kingdom
536365 71053 WHITE METAL LANTERN 6 12/1/2010 8:26 3.39 17850 United Kingdom
536365 84406B CREAM CUPID HEARTS COAT HANGER 8 12/1/2010 8:26 2.75 17850 United Kingdom
536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6 12/1/2010 8:26 3.39 17850 United Kingdom
536365 84029E RED WOOLLY HOTTIE WHITE HEART. 6 12/1/2010 8:26 3.39 17850 United Kingdom
536365 22752 SET 7 BABUSHKA NESTING BOXES 2 12/1/2010 8:26 7.65 17850 United Kingdom

Các tên biến số là rất dễ hiểu. Ví dụ InvoiceNo là mã hóa đơn, StockCode là mã hàng hóa và là hàng hóa gì thì được miêu tả ở Description còn CustomerID là mã khách hàng.

Recommender Engine without Ratings

Trong tình huống không có thông tin về ratings của các items chúng ta có thể xây dựng Recommender Engine từ binary matrix - là kiểu ma trận dạng như sau:

##       item1 item2 item3 item4 item5
## user1     0     1     1     0     0
## user2     1     0     0     1     1
## user3     0     0     0     0     1
## user4     1     1     1     1     1
## user5     1     1     1     0     0

Trước hết chúng ta convert dữ liệu nguyên thủy ban đầu về binary data frame như sau:

Table 2: Some Observations from binary data (Option 2)
CustomerID 23566 85067 44089C 21814 22555 23108 22067 85110 90059B 84031A
12346 0 0 0 0 0 0 0 0 0 0
12347 0 0 0 0 0 0 0 0 0 0
12348 0 0 0 0 0 0 0 0 0 0
12349 0 0 0 0 1 1 0 0 0 0
12350 0 0 0 0 0 0 0 0 0 0
12352 0 0 0 0 0 0 0 0 0 0
12353 0 0 0 0 0 0 0 0 0 0
12354 0 0 0 0 0 0 0 0 0 0
12355 0 0 0 0 0 0 0 0 0 0
12356 0 0 0 0 0 0 0 0 0 0

Dòng 4 của Table 2 chỉ ra rằng khách hàng có mã CustomerID là 12349 mua các item có mã 22555 và 23108 - ứng với giá trị là 1 của binary data frame. Những item mà khách hàng này không mua có giá trị là 0.

Data Preparation for Recommender Engine

Đến đây cần convert binary data frame đã chuẩn bị ở trên về binary matrix - là cấu trúc dữ liệu đòi hỏi cho việc training các Recommender Engines của thư viện recommenderlab của Michael Hahsler như sau:

Binary matrix cho một số quan sát (Figure 1):

Dữ liệu là một ma trận thưa kiểu nhị phân (Binary Sparse Matrix) như chúng ta đã biết. Đây là thực tế phổ biến khi xây dựng các hệ thống khuyến nghị: hầu hét các cell của ma trận có giá trị là zero (thực chất là NA - Not Available, một vấn đề được gọi là Problem of Data Sparsity cho lớp bài toán này) dẫn đến mức độ che phủ dữ liệu của ma trận rất thấp (hầu hết là dưới 10%, mức phổ biến là 5%-6%). Với dữ liệu đã được chuyển về ma trận thưa, sử dụng 80% dữ liệu để huấn luyện Recommender Engine và 20% để test:

Vì dữ liệu đầu vào là binary sparse matrix nên thước đo tương đồng (similarity measure) theo Jaccard sẽ phù hợp hơn. R codes dưới đây thực hiện huấn luyện Recommender Engine trên train data theo Jaccard Similarity sử dụng Item-base Approach (có thể mất nhiều thời gian để train Engine):

Với Engine đã có chúng ta có thể sử dụng để khuyến nghị, ví dụ, 5 items cho mỗi một user/customer:

Viết hàm có tên item_recommended_user() trả về các items dưới dạng StockCode được khuyến nghị cho user/customer:

Sử dụng hàm trên để extract ra các items được khuyến nghị cho tất cả các users/customers:

Join với dữ liệu về miêu tả cho items theo StockCode:

Show các items khuyến nghị cho, ví dụ, customer thứ nhất:

Table 3: Some Items Recommended for CustomerID = 12347
CustomerID StockCode Description
12347 20724 RED RETROSPOT CHARLOTTE BAG
12347 20723 STRAWBERRY CHARLOTTE BAG
12347 23204 CHARLOTTE BAG APPLES DESIGN
12347 22355 CHARLOTTE BAG SUKI DESIGN
12347 22730 ALARM CLOCK BAKELIKE IVORY

Approach to Evaluating Recommender Performance

Mặc dù thư viện recommenderlab có các hàm để đánh giá hiệu quả của Recommender Engine và đã được Suresh K. Gorakala sử dụng cho một case study trong textbook Building a Recommendation System with R nhưng áp dụng nguyên mà không có hiệu chỉnh gì thì sẽ không có nhiều ý nghĩa vì một vài lí do được trình bày ngay sau đây. Trước hết nhắc lại rằng khoảng thời gian mà chúng ta quan sát hành vi của các customers là từ 2010-12-01 08:26:00 đến 2011-12-09 12:50:00:

## [1] "2010-12-01 08:26:00 UTC" "2011-12-09 12:50:00 UTC"

Trong khi đó, những items được khuyến nghị cho các customers hoàn toàn dựa trên data về hành vi của họ trong khoảng thời gian này. Nghĩa là các items được Engine khuyến nghị hoàn toàn dựa vào những sự giao dịch/tương tác ĐÃ XẨY RA trong khi thực tế họ mua sắm những items nào thì chúng ta đã biết.

Do vậy, cách tiếp cận để đánh giá chất lượng của Recommender như sau có thể sẽ phù hợp hơn: so sánh các items được khuyến nghị cho customers với các items mà họ SẼ MUA sau thời điểm 2011-12-09 12:50:00. Đây là cách tiếp cận hợp lí hơn. Tình huống này cũng giống như chúng ta xây dựng một mô hình AR dự báo giá cổ phiếu tại thời điểm t + 1 (tức là giá của 1 ngày nữa) chỉ căn cứ vào giá của hiện tại (thời điểm t) và các biến trễ của t (thông tin trong quá khứ). Để biết mức độ chính xác của dự báo thì cách tiếp cận là, ví dụ, so sánh giá thực tế của 1 ngày sắp tới với giá được dự báo từ mô hình AR. Hướng tiếp cận này sẽ được trình bày chi tiết trong phần kế tiếp của series về Recommendation System.

