PHẦN 1: GIỚI THIỆU DỮ LIỆU

library(knitr)
## Warning: package 'knitr' was built under R version 4.3.3
library(tibble)
library(dplyr)
## Warning: package 'dplyr' was built under R version 4.3.3
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)
library(forcats)
## Warning: package 'forcats' was built under R version 4.3.3

1.1. Nguồn dữ liệu và tổng quan dữ liệu

  • Dữ liệu được sử dụng trong nghiên cứu được lấy từ trang web Kaggle với tên bộ dữ liệu: “Online Shoppers Purchasing Intention Dataset”. Bộ dữ liệu này được phát hành bởi các nhà nghiên cứu tại Đại học Bilkent, Thổ Nhĩ Kỳ, và được sử dụng phổ biến trong các nghiên cứu và bài toán phân tích hành vi người tiêu dùng trên nền tảng thương mại điện tử.

  • Bộ dữ liệu gồm tổng cộng 18 biến, bao gồm 10 biến định lượng và 8 biến định tính, tương ứng với thông tin chi tiết về hành vi truy cập và các đặc điểm của phiên làm việc của người dùng trên một website thương mại điện tử. Mỗi quan sát đại diện cho một phiên truy cập duy nhất.

1.2. Đọc dữ liệu

  • Tệp online_shoppers_intention được lưu dưới định dạng csv. Đọc bộ dữ liệu này vào phần mềm R

  • Sau khi đọc, bộ dữ liệu được gán vào biến st để dễ dàng thao tác.

st <- read.csv("~/THAYTUONG/online_shoppers_intention.csv", header = T)

1.3. Danh sách các biến

  • Bộ dữ liệu bao gồm 12.330 quan sát tương ứng với các phiên truy cập của người dùng trên trang thương mại điện tử và 18 biến đặc trưng mô tả thông tin về hành vi truy cập, đặc điểm kỹ thuật, thời điểm truy cập và kết quả mua hàng. Số lượng quan sát lớn giúp đảm bảo độ tin cậy trong phân tích thống kê và mô hình dự đoán.
dim(st)
## [1] 12330    18

Các biến được đưa vào bộ dữ liệu

names(st)
##  [1] "Administrative"          "Administrative_Duration"
##  [3] "Informational"           "Informational_Duration" 
##  [5] "ProductRelated"          "ProductRelated_Duration"
##  [7] "BounceRates"             "ExitRates"              
##  [9] "PageValues"              "SpecialDay"             
## [11] "Month"                   "OperatingSystems"       
## [13] "Browser"                 "Region"                 
## [15] "TrafficType"             "VisitorType"            
## [17] "Weekend"                 "Revenue"

Bộ dữ liệu bao gồm các biến sau:

  • Administrative Số trang thuộc danh mục quản trị mà người dùng đã truy cập trong phiên.

  • Administrative_Duration Tổng thời gian (giây) người dùng dành cho các trang quản trị.

  • Informational Số trang cung cấp thông tin mà người dùng đã truy cập.

  • Informational_Duration Tổng thời gian trên các trang cung cấp thông tin.

  • ProductRelated Số trang liên quan đến sản phẩm đã được truy cập.

  • ProductRelated_Duration Tổng thời gian người dùng dành cho các trang sản phẩm.

  • BounceRates Tỷ lệ phiên chỉ truy cập 1 trang rồi thoát ra (bounce).

  • ExitRates Tỷ lệ các trang là trang cuối cùng của phiên truy cập.

  • PageValues Giá trị trung bình của trang được truy cập (gắn với giao dịch thành công trước đó).

  • SpecialDay Mức độ gần với một ngày đặc biệt (0 đến 1), ví dụ: Ngày lễ, Valentine – càng gần giá trị càng cao.

  • Month Tháng trong năm mà phiên truy cập xảy ra (Jan, Feb, …, Dec).

  • OperatingSystems Loại hệ điều hành được sử dụng (Windows, MacOS, Linux, v.v.).

  • Browser Trình duyệt được sử dụng (Chrome, Firefox, Safari, …).

  • Region Khu vực địa lý của người dùng (được mã hóa số).

  • TrafficType Loại nguồn truy cập (trực tiếp, qua email, mạng xã hội, v.v.).

  • VisitorType Loại người truy cập (Returning Visitor - Người dùng đã từng truy cập trước đó và quay lại trang web lần nữa, New Visitor - Người dùng lần đầu truy cập vào trang web, Other - Trường hợp khác).

  • Weekend Phiên truy cập có diễn ra vào cuối tuần hay không (TRUE / FALSE).

  • Revenue Biến mục tiêu – người dùng có phát sinh giao dịch trong phiên đó (TRUE / FALSE).

str(st)
## 'data.frame':    12330 obs. of  18 variables:
##  $ Administrative         : int  0 0 0 0 0 0 0 1 0 0 ...
##  $ Administrative_Duration: num  0 0 0 0 0 0 0 0 0 0 ...
##  $ Informational          : int  0 0 0 0 0 0 0 0 0 0 ...
##  $ Informational_Duration : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ ProductRelated         : int  1 2 1 2 10 19 1 0 2 3 ...
##  $ ProductRelated_Duration: num  0 64 0 2.67 627.5 ...
##  $ BounceRates            : num  0.2 0 0.2 0.05 0.02 ...
##  $ ExitRates              : num  0.2 0.1 0.2 0.14 0.05 ...
##  $ PageValues             : num  0 0 0 0 0 0 0 0 0 0 ...
##  $ SpecialDay             : num  0 0 0 0 0 0 0.4 0 0.8 0.4 ...
##  $ Month                  : chr  "Feb" "Feb" "Feb" "Feb" ...
##  $ OperatingSystems       : int  1 2 4 3 3 2 2 1 2 2 ...
##  $ Browser                : int  1 2 1 2 3 2 4 2 2 4 ...
##  $ Region                 : int  1 1 9 2 1 1 3 1 2 1 ...
##  $ TrafficType            : int  1 2 3 4 4 3 3 5 3 2 ...
##  $ VisitorType            : chr  "Returning_Visitor" "Returning_Visitor" "Returning_Visitor" "Returning_Visitor" ...
##  $ Weekend                : logi  FALSE FALSE FALSE FALSE TRUE FALSE ...
##  $ Revenue                : logi  FALSE FALSE FALSE FALSE FALSE FALSE ...

Các biến định tính có thể phân tích là: Month, VisitorType, Weekend, Revenue.

PHẦN 2: PHÂN TÍCH MÔ TẢ MỘT BIẾN ĐỊNH TÍNH (UNIVARIATE DESCRIPTIVE ANALYSIS)

2.1. Biến Month (tháng trong năm mà phiên truy cập xảy ra)

  • Kết quả phân tích tần suất phiên truy cập theo tháng cho thấy sự phân bố không đồng đều giữa các tháng trong năm. Cụ thể, ba tháng có số lượng phiên truy cập cao nhất là tháng 5 (27,28%), tháng 11 (24,31%), và tháng 3 (15,47%), chiếm hơn 67% tổng số phiên truy cập trong toàn bộ tập dữ liệu. Điều này cho thấy các hoạt động truy cập mua sắm trực tuyến tập trung mạnh vào các giai đoạn giữa và cuối năm, có thể liên quan đến các chiến dịch ưu đãi như lễ Phục Sinh, Black Friday, hoặc các đợt giảm giá mùa hè và cuối năm.

  • Ngược lại, các tháng như tháng 2 (1,49%), tháng 6 (2,34%), tháng 8 (3,51%), và tháng 7 (3,50%) ghi nhận tỷ lệ truy cập rất thấp. Đây có thể là các thời điểm ít có chương trình khuyến mãi hoặc không trùng với mùa cao điểm mua sắm.

table(st$Month) # Tạo bảng tần suất 
## 
##  Aug  Dec  Feb  Jul June  Mar  May  Nov  Oct  Sep 
##  433 1727  184  432  288 1907 3364 2998  549  448
prop.table(table(st$Month))
## 
##        Aug        Dec        Feb        Jul       June        Mar        May 
## 0.03511760 0.14006488 0.01492295 0.03503650 0.02335766 0.15466342 0.27283049 
##        Nov        Oct        Sep 
## 0.24314680 0.04452555 0.03633414
st %>% group_by(Month) %>% summarise(n = n()) %>%
  ggplot(aes(x = Month, y = n))+
  geom_col(fill='lightblue')+
  labs(x="Tháng", y = "Phiên truy cập")+
  labs(caption = "Tần suất phiên truy cập theo tháng")+
  geom_text(aes(label = n), vjust = 0, color = 'black')

2.2. Biến VisitorType (loại người truy cập)

  • Kết quả thống kê cho thấy phần lớn người truy cập vào trang thương mại điện tử là Returning Visitor (khách quay lại), chiếm 85,57% tổng số phiên. Trong khi đó, New Visitor (khách mới) chỉ chiếm khoảng 13,74%, và nhóm Other (không xác định rõ loại khách) chỉ chiếm tỷ lệ rất nhỏ (0,69%).

  • Tỷ lệ cao của nhóm khách quay lại cho thấy website có khả năng thu hút và giữ chân người dùng hiệu quả, đồng thời cũng phản ánh tiềm năng chuyển đổi cao hơn từ nhóm người dùng quen thuộc. Đây là yếu tố quan trọng trong chiến lược tiếp thị và duy trì khách hàng của doanh nghiệp.

table(st$VisitorType)
## 
##       New_Visitor             Other Returning_Visitor 
##              1694                85             10551
prop.table(table(st$VisitorType))
## 
##       New_Visitor             Other Returning_Visitor 
##       0.137388483       0.006893755       0.855717762
st %>% group_by(VisitorType) %>% summarise(n = n()) %>%
  ggplot(aes(x = VisitorType, y = n))+
  geom_col(fill = 'lightpink')+
   geom_text(aes(label = n), vjust = -0.5, color = 'Black')+
  labs(x = "Loại khách truy cập", y = "Số lượng", caption = "Biểu đồ phân bố số lượng phiên truy cập theo loại khách truy cập")

2.3. Biến Weekend (phiên truy cập diễn ra vào cuối tuần hay không)

  • Kết quả phân tích cho thấy phần lớn các phiên truy cập diễn ra vào ngày thường (76,74%), trong khi chỉ khoảng 23,26% phiên xảy ra vào cuối tuần (thứ Bảy, Chủ nhật). Điều này cho thấy người dùng có xu hướng truy cập trang thương mại điện tử nhiều hơn vào các ngày làm việc trong tuần, có thể do thói quen duyệt web trong giờ hành chính, hoặc tận dụng thời gian rảnh giữa các công việc.

  • Sự chênh lệch đáng kể giữa ngày thường và cuối tuần cũng gợi ý rằng các chiến dịch quảng cáo hoặc khuyến mãi có thể đạt hiệu quả cao hơn nếu được triển khai vào ngày thường.

table(st$Weekend)
## 
## FALSE  TRUE 
##  9462  2868
prop.table(table(st$Weekend))
## 
##     FALSE      TRUE 
## 0.7673966 0.2326034
st %>% group_by(Weekend) %>% summarise(n = n()) %>%
  ggplot(aes(x = Weekend, y = n))+
  geom_col(fill = 'purple')+
  geom_text(aes(label = n), vjust = -0.5, color = 'black')+
  labs(title = "Biểu đồ số lượng phiên truy cập vào cuối tuần", x = "Phiên truy cập vào cuối tuần", y = "Số lượng")

2.4. Biến Revenue (phát sinh giao dịch trong phiên)

  • Biến Revenue thể hiện việc người dùng có phát sinh giao dịch (mua hàng) trong phiên truy cập hay không. Kết quả cho thấy có tới 84,53% phiên truy cập không tạo ra doanh thu, chỉ 15,47% phiên dẫn đến hành vi mua hàng. Tỷ lệ thấp này phản ánh thực tế phổ biến trong thương mại điện tử: phần lớn người dùng truy cập để tìm kiếm, so sánh hoặc tham khảo sản phẩm mà không thực hiện giao dịch ngay lập tức.

  • Đây là điểm quan trọng cần lưu ý trong các mô hình phân tích hành vi người tiêu dùng và dự đoán khả năng mua hàng. Việc hiểu rõ đặc điểm này có thể giúp doanh nghiệp tối ưu hóa nội dung, trải nghiệm người dùng và các chiến lược chuyển đổi để nâng cao tỷ lệ giao dịch.

table(st$Revenue)
## 
## FALSE  TRUE 
## 10422  1908
prop.table(table(st$Revenue))
## 
##     FALSE      TRUE 
## 0.8452555 0.1547445
st %>% group_by(Revenue) %>% summarise( n = n()) %>%
  ggplot(aes(x = Revenue, y = n)) +
  geom_col(fill = 'orange') +
  geom_text(aes(label = n), vjust = -0.5, color = 'black')+
  labs(title = "Biểu đồ tần suất phát sinh giao dịch trong phiên", x = "Phát sinh giao dịch", y = "Số lượng")

PHẦN 3: ƯỚC LƯỢNG KHOẢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT CHO TỶ LỆ (MỘT BIẾN)

3.1. Biến Month

  • Hạng mục quan tâm: “May” - Mua hàng vào tháng 5

Khoảng tin cậy 95% cho tỷ lệ mua hàng vào tháng 5

prop.test(sum(st$Month == "May"), nrow(st), conf.level = 0.95) 
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(st$Month == "May") out of nrow(st), null probability 0.5
## X-squared = 2544.3, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.2650000 0.2808032
## sample estimates:
##         p 
## 0.2728305
  • Khoảng tin cậy 95% cho tỷ lệ mua hàng vào tháng 5 trong năm là từ 26.50% đến 28.08%.

Kiểm định giả thuyết

Giả thuyết:

  • \(H_0\): Tỷ lệ phiên truy cập trong tháng 5 là 50%.

  • \(H_1\): Tỷ lệ phiên truy cập trong tháng 5 là khác 50%.

Kết quả:

  • Kiểm định tỷ lệ một mẫu được thực hiện nhằm đánh giá xem tỷ lệ phiên truy cập trong tháng 5 có khác biệt đáng kể so với tỷ lệ giả định là 50% hay không. Kết quả cho thấy tỷ lệ phiên truy cập thực tế trong tháng 5 là 27,28%, với khoảng tin cậy 95% nằm trong khoảng [26,5%; 28,1%]. Giá trị thống kê kiểm định là \(X^2\) = 2544,3, với p-value < 2.2e-16.

  • Với mức ý nghĩa 0,05, giá trị p rất nhỏ cho phép bác bỏ giả thuyết không (\(H_0\)) rằng tỷ lệ bằng 50%. Như vậy, tỷ lệ phiên truy cập trong tháng 5 khác biệt có ý nghĩa thống kê so với mức giả định. Tuy tháng 5 là thời điểm có số lượng truy cập cao nhất trong năm, song kết quả này khẳng định rằng tỷ lệ truy cập không đạt đến mức chiếm phân nửa tổng số phiên, và sự phân bố theo tháng là không đồng đều.

3.2. Biến VisitorType

  • Hạng mục quan tâm: “New_Visitor” - người dùng lần đầu truy cập

Khoảng tin cậy 95% cho tỷ lệ người dùng lần đầu truy cập

prop.test(sum(st$VisitorType == "New_Visitor"), nrow(st), conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(st$VisitorType == "New_Visitor") out of nrow(st), null probability 0.5
## X-squared = 6483.5, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.1313851 0.1436193
## sample estimates:
##         p 
## 0.1373885

Khoảng tin cậy 95% cho tỷ lệ người dùng lần đầu truy cập là từ 13.14% đến 14.36%.

Kiểm định giả thuyết

Giả thuyết:

\(H_0\): Tỷ lệ khách truy cập mới là 50%.

\(H_1\): Tỷ lệ khách truy cập mới là khác 50%.

  • Mục tiêu kiểm định là đánh giá xem tỷ lệ khách truy cập mới (New_Visitor) có khác biệt đáng kể so với mức giả định là 50% hay không. Kết quả cho thấy tỷ lệ thực tế của nhóm khách truy cập mới là 13,74%, với khoảng tin cậy 95% nằm trong khoảng từ 13,14% đến 14,36%.

  • Giá trị thống kê kiểm định là \(X^2\) = 6483,5, với p-value < 2.2e-16. Với mức ý nghĩa 0,05, giá trị p rất nhỏ nên bác bỏ giả thuyết không (\(H_0\)) rằng tỷ lệ khách truy cập mới bằng 50%.

Kết luận:

  • Tỷ lệ khách truy cập mới thấp hơn đáng kể so với mức giả định, và sự khác biệt này có ý nghĩa thống kê. Điều này phản ánh thực tế rằng phần lớn người dùng truy cập vào trang thương mại điện tử là khách quay lại (Returning Visitor), cho thấy website có khả năng giữ chân người dùng tốt, đồng thời cũng là yếu tố quan trọng cần lưu ý trong các chiến lược tiếp thị và tối ưu hóa chuyển đổi.

3.3. Biến Weekend

Hạng mục quan tâm: “TRUE” - phiên truy cập vào cuối tuần

Khoảng tin cậy 95% cho tỷ lệ phiên truy cập vào cuối tuần

prop.test(sum(st$Weekend == "TRUE"), nrow(st), conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(st$Weekend == "TRUE") out of nrow(st), null probability 0.5
## X-squared = 3525.4, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.2251899 0.2401843
## sample estimates:
##         p 
## 0.2326034

Khoảng tin cậy 95% cho tỷ lệ phiên truy cập vào cuối tuần là từ 22.52% đến 24.02%.

Kiểm định giả thuyết

Giả thuyết:

\(H_0\): Tỷ lệ phiên truy cập diễn ra vào cuối tuần là 50%.

\(H_1\): Tỷ lệ phiên truy cập diễn ra vào cuối tuần là khác 50%.

  • Kiểm định được thực hiện nhằm xác định xem tỷ lệ phiên truy cập diễn ra vào cuối tuần (Weekend = TRUE) có khác biệt có ý nghĩa thống kê so với tỷ lệ giả định là 50% hay không. Kết quả cho thấy tỷ lệ thực tế là 23,26%, với khoảng tin cậy 95% dao động từ 22,52% đến 24,02%.

  • Giá trị thống kê kiểm định là X² = 3525,4, với p-value < 2.2e-16. Với mức ý nghĩa 0,05, ta bác bỏ giả thuyết không (\(H_0\)), đồng nghĩa với việc tỷ lệ phiên truy cập cuối tuần khác đáng kể so với 50%.

Điều này cho thấy phần lớn người dùng không truy cập vào cuối tuần, và hành vi truy cập chủ yếu xảy ra trong các ngày làm việc. Kết quả này có ý nghĩa thực tiễn quan trọng trong việc lên lịch các chiến dịch quảng bá hoặc điều chỉnh thời gian tiếp cận khách hàng hiệu quả hơn.

3.4. Biến Revenue

Hạng mục quan tâm: “FALSE” - không phát sinh giao dịch

Khoảng tin cậy 95% cho tỷ lệ không phát sinh giao dịch

prop.test(sum(st$Revenue == "FALSE"), nrow(st), conf.level = 0.95)
## 
##  1-sample proportions test with continuity correction
## 
## data:  sum(st$Revenue == "FALSE") out of nrow(st), null probability 0.5
## X-squared = 5877.6, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
##  0.8387232 0.8515713
## sample estimates:
##         p 
## 0.8452555

Khoảng tin cậy 95% cho tỷ lệ không phát sinh giao dịch là từ 83.87% đến 85.16%.

Kiểm định giả thuyết

Giả thuyết:

\(H_0\): Tỷ lệ không phát sinh giao dịch là 50%.

\(H_1\): Tỷ lệ không phát sinh giao dịch là khác 50%.

  • Mục tiêu của kiểm định là đánh giá xem tỷ lệ phiên truy cập không phát sinh giao dịch (Revenue = FALSE) có khác biệt đáng kể so với tỷ lệ giả định là 50% hay không. Kết quả cho thấy tỷ lệ quan sát được là 84,53%, với khoảng tin cậy 95% nằm trong khoảng từ 83,87% đến 85,16%.

  • Giá trị thống kê kiểm định là \(X^2\) = 5877,6, với p-value < 2.2e-16. Với mức ý nghĩa 0,05, p-value rất nhỏ nên ta bác bỏ giả thuyết không (\(H_0\)) rằng tỷ lệ phiên không mua hàng bằng 50%.

  • Điều này cho thấy tỷ lệ phiên truy cập không tạo ra doanh thu cao hơn đáng kể so với mức giả định, phản ánh đặc điểm phổ biến của hành vi người tiêu dùng trên các nền tảng thương mại điện tử: đa số người dùng chỉ truy cập để tham khảo, tìm kiếm thông tin hoặc so sánh giá, chứ không mua ngay trong lần truy cập đầu tiên. Kết quả này nhấn mạnh tầm quan trọng của việc tối ưu hóa trải nghiệm người dùng và chiến lược chuyển đổi để tăng tỷ lệ mua hàng.

PHẦN 4: PHÂN TÍCH SỰ TÁC ĐỘNG CỦA CÁC BIẾN LÊN BIẾN REVENUE

4.1. Phân tích mối quan hệ giữa biến VisitorType và Revenue

  • Trong bối cảnh thương mại điện tử, việc hiểu rõ loại khách truy cập nào có xu hướng phát sinh giao dịch cao hơn là điều thiết yếu nhằm tối ưu hóa chiến lược tiếp thị và chăm sóc khách hàng. Biến VisitorType phản ánh đặc điểm của người truy cập, gồm ba nhóm: New Visitor, Returning Visitor, và Other, trong khi biến Revenue biểu thị kết quả giao dịch (có hoặc không phát sinh mua hàng).

  • Phân tích mối quan hệ giữa hai biến này nhằm kiểm tra xem loại khách truy cập có ảnh hưởng đáng kể đến khả năng tạo ra doanh thu hay không. Nếu tồn tại mối liên hệ thống kê giữa VisitorType và Revenue, điều này sẽ cung cấp cơ sở thực tiễn cho doanh nghiệp trong việc tập trung nguồn lực vào nhóm khách hàng tiềm năng, từ đó nâng cao tỷ lệ chuyển đổi và hiệu quả hoạt động kinh doanh.

4.1.1. Bảng tần suất chéo

st1 <- table(st$VisitorType, st$Revenue) #tạo bảng tần số chéo
st1_sub <- st1[c("New_Visitor", "Returning_Visitor"), c("TRUE", "FALSE")]
print(st1_sub)
##                    
##                     TRUE FALSE
##   New_Visitor        422  1272
##   Returning_Visitor 1470  9081
prop.table(st1_sub, margin = 1)# margin trả về tỷ lệ theo hàng 
##                    
##                          TRUE     FALSE
##   New_Visitor       0.2491145 0.7508855
##   Returning_Visitor 0.1393233 0.8606767

Trực quan hóa

# Chuyển sang data frame
st1_df <- as.data.frame(st1_sub)
colnames(st1_df) <- c("VisitorType", "Revenue", "Frequency")
# Vẽ biểu đồ từ bảng tần suất
ggplot(st1_df, aes(x = Revenue, y = Frequency, fill = VisitorType)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ tần suất giữa VisitorType và Revenue",
    x = "Revenue",
    y = "Tần suất"
  ) +
  theme_minimal()

Bảng tần suất cho thấy có tổng cộng 1.694 khách truy cập mới (New Visitor) và 10.551 khách quay lại (Returning Visitor). Trong đó:

  • Chỉ có 422 khách truy cập mới (24,9%) phát sinh giao dịch (Revenue = TRUE), còn lại 1.272 khách (75,1%) không mua hàng.

  • Trong khi đó, 1.470 khách quay lại (13,9%) tạo ra doanh thu, còn lại 9.081 khách (86,1%) không mua hàng.

Tỷ lệ hàng theo bảng chuẩn hóa cho thấy:

  • Tỷ lệ khách truy cập mới chiếm 50% trong toàn bộ mẫu, với tỷ lệ phát sinh doanh thu là 12,46%.

  • Tỷ lệ khách quay lại cũng chiếm 50%, nhưng tỷ lệ tạo doanh thu thấp hơn một chút: 6,97%.

Kết luận

  • Kết quả cho thấy khách truy cập mới có xu hướng mua hàng cao hơn so với khách quay lại tính theo tỷ lệ hàng. Tuy nhiên, do số lượng khách quay lại lớn hơn rất nhiều, nên số giao dịch tuyệt đối lại cao hơn ở nhóm Returning Visitor.

  • Điều này phản ánh hiệu quả tiếp cận của website đối với người dùng mới, nhưng cũng cho thấy khả năng giữ chân và chuyển đổi khách quay lại chưa thật sự tối ưu. Doanh nghiệp có thể dựa vào kết quả này để xây dựng các chiến lược cải thiện tỷ lệ chuyển đổi của khách cũ và duy trì chất lượng trải nghiệm cho người mới.

4.1.2. Kiểm định thống kê kiểm định chi bình phương

Giả thuyết:

\(H_0\) (giả thuyết không): VisitorType và Revenue là hai biến độc lập.

\(H_1\) (giả thuyết đối): VisitorType và Revenue có liên hệ với nhau.

chisq.test(st1_sub)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  st1_sub
## X-squared = 133.84, df = 1, p-value < 2.2e-16
  • Với mức ý nghĩa thông thường là 0.05, giá trị p rất nhỏ (< 0.001) cho thấy bác bỏ giả thuyết không (\(H_0\)). Như vậy, có mối liên hệ có ý nghĩa thống kê giữa loại khách truy cập và khả năng phát sinh giao dịch.

  • Kết quả kiểm định Chi-bình phương (\(X^2\) = 133.84, p < 2.2e-16) cho thấy rằng loại khách truy cập có ảnh hưởng đáng kể đến khả năng phát sinh doanh thu. Cụ thể, Returning Visitor (khách quay lại) có xu hướng mua hàng cao hơn đáng kể so với New Visitor (khách hàng mới).

4.1.3. Relative Risk

library(epitools)
riskratio(st1_sub)
## $data
##                    
##                     TRUE FALSE Total
##   New_Visitor        422  1272  1694
##   Returning_Visitor 1470  9081 10551
##   Total             1892 10353 12245
## 
## $measure
##                    risk ratio with 95% C.I.
##                     estimate    lower    upper
##   New_Visitor       1.000000       NA       NA
##   Returning_Visitor 1.146216 1.114029 1.179332
## 
## $p.value
##                    two-sided
##                     midp.exact fisher.exact   chi.square
##   New_Visitor               NA           NA           NA
##   Returning_Visitor          0 5.309485e-28 3.872622e-31
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Kết quả phân tích bảng tần suất cho thấy sự khác biệt rõ rệt về tỷ lệ giao dịch giữa hai nhóm khách hàng. Trong số 1.694 khách truy cập mới (New Visitor), có 422 phiên phát sinh giao dịch. Trong khi đó, tỷ lệ này ở nhóm khách quay lại (Returning Visitor) là 1.470 trong 10.551 phiên.

  • Kết quả ước lượng tỷ lệ rủi ro (Risk Ratio) cho thấy Returning Visitor có khả năng phát sinh giao dịch cao hơn 14,6% so với New Visitor, với Risk Ratio = 1,146 và khoảng tin cậy 95% là [1,114 ; 1,179]. Vì khoảng tin cậy này không chứa giá trị 1, điều này chứng tỏ sự khác biệt là có ý nghĩa thống kê.

  • Đồng thời, các kiểm định thống kê cho kết quả rất rõ ràng với p-value gần bằng 0 ở cả phép kiểm Fisher và kiểm định Chi-bình phương (lần lượt là p < 5.31e-28 và p < 3.87e-31), khẳng định rằng mối quan hệ giữa loại khách truy cập và xác suất phát sinh doanh thu là có ý nghĩa thống kê mạnh mẽ.

4.1.4. Odd Ratio

oddsratio(st1_sub)
## $data
##                    
##                     TRUE FALSE Total
##   New_Visitor        422  1272  1694
##   Returning_Visitor 1470  9081 10551
##   Total             1892 10353 12245
## 
## $measure
##                    odds ratio with 95% C.I.
##                     estimate    lower    upper
##   New_Visitor       1.000000       NA       NA
##   Returning_Visitor 2.049723 1.810839 2.316751
## 
## $p.value
##                    two-sided
##                     midp.exact fisher.exact   chi.square
##   New_Visitor               NA           NA           NA
##   Returning_Visitor          0 5.309485e-28 3.872622e-31
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
  • Dựa trên bảng tần suất, trong số 1.694 khách truy cập mới (New Visitor), có 422 phiên mua hàng và 1.272 phiên không mua hàng. Trong khi đó, khách quay lại (Returning Visitor) có 1.470 giao dịch trên tổng số 10.551 phiên truy cập (≈13,9%).

Kết quả phân tích tỷ số odds (odds ratio) cho thấy:

  • Odds ratio = 2,05

  • Khoảng tin cậy 95%: [1,81 ; 2,32]

Điều này có nghĩa là: Khách quay lại có khả năng mua hàng gấp khoảng 2,05 lần so với khách mới, khi so sánh odds (xác suất xảy ra so với không xảy ra) giữa hai nhóm.

Các kiểm định đi kèm cũng cho kết quả rất thuyết phục:

  • p-value (Fisher’s exact) = 5.31e-28

  • p-value (Chi-square) = 3.87e-31

Với p-value rất nhỏ, ta bác bỏ giả thuyết không, kết luận rằng có mối liên hệ thống kê rõ rệt giữa loại khách truy cập và khả năng phát sinh doanh thu.

Kết luận

  • Kết quả cho thấy Returning Visitor có hành vi mua hàng vượt trội đáng kể so với New Visitor. Điều này phản ánh vai trò quan trọng của nhóm khách hàng trung thành trong việc tạo ra doanh thu. Do đó, doanh nghiệp cần ưu tiên các chiến lược duy trì khách hàng cũ, xây dựng chương trình khách hàng thân thiết và tiếp thị lại để tận dụng hiệu quả hơn tiềm năng chuyển đổi từ nhóm khách này.

4.2. Phân tích mối quan hệ giữa biến Month và Revenue

  • Biến Month phản ánh thời điểm trong năm mà người dùng truy cập vào trang web thương mại điện tử, trong khi biến Revenue thể hiện kết quả của phiên truy cập đó – liệu có phát sinh giao dịch mua hàng hay không. Việc phân tích mối liên hệ giữa hai biến này nhằm kiểm tra xem tính mùa vụ (seasonality) có ảnh hưởng đáng kể đến hành vi mua sắm trực tuyến của khách hàng hay không.

  • Nếu tồn tại mối quan hệ thống kê giữa tháng và khả năng tạo doanh thu, điều đó sẽ cung cấp cơ sở thực tiễn cho doanh nghiệp trong việc tối ưu hóa thời điểm triển khai các chiến dịch marketing, khuyến mãi hoặc điều chỉnh tồn kho sản phẩm phù hợp với hành vi tiêu dùng theo chu kỳ thời gian.

4.2.1. Bảng tần suất chéo

st2 <- table(st$Month, st$Revenue) #tạo bảng tần số chéo
st2_sub <- st2[c("Mar", "Nov"), c("TRUE", "FALSE")]
print(st2_sub)
##      
##       TRUE FALSE
##   Mar  192  1715
##   Nov  760  2238
prop.table(st2_sub, margin = 1)# margin trả về tỷ lệ theo hàng 
##      
##            TRUE     FALSE
##   Mar 0.1006817 0.8993183
##   Nov 0.2535023 0.7464977

Trực quan hóa

# Chuyển sang data frame
st2_df <- as.data.frame(st2_sub)
colnames(st2_df) <- c("Month", "Revenue", "Frequency")
# Vẽ biểu đồ từ bảng tần suất
ggplot(st2_df, aes(x = Revenue, y = Frequency, fill = Month)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ tần suất giữa Month và Revenue",
    x = "Revenue",
    y = "Tần suất"
  ) +
  theme_minimal()

Kết quả bảng tần suất cho thấy:

  • Trong tháng 3 (March), chỉ có 192 phiên truy cập (10,1%) dẫn đến giao dịch, trong khi 1.715 phiên (89,9%) không phát sinh doanh thu.

  • Ngược lại, tháng 11 (November) ghi nhận 760 phiên có giao dịch (25,4%), cao hơn đáng kể so với tháng 3.

Tỷ lệ phát sinh giao dịch trong tháng 11 cao gấp 2,5 lần so với tháng 3, cho thấy khả năng ảnh hưởng của yếu tố mùa vụ đến hành vi mua sắm trực tuyến. Điều này hoàn toàn phù hợp với thực tiễn thương mại điện tử, khi tháng 11 thường gắn với các chương trình khuyến mãi lớn như Black Friday hoặc Ngày độc thân (11/11) – vốn thu hút đông đảo người tiêu dùng.

4.2.2. Kiểm định thông kê kiểm định chi bình phương

Giả thuyết:

\(H_0\) (giả thuyết không): Month và Revenue là hai biến độc lập.

\(H_1\) (giả thuyết đối): Month và Revenue có liên hệ với nhau.

chisq.test(st2_sub)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  st2_sub
## X-squared = 173.05, df = 1, p-value < 2.2e-16
  • Với mức ý nghĩa 0.05, giá trị p rất nhỏ (< 0.001) cho phép bác bỏ giả thuyết không (\(H_0\)). Điều này chứng minh rằng có mối liên hệ có ý nghĩa thống kê giữa tháng (March hoặc November) và khả năng phát sinh giao dịch (Revenue).

  • Cụ thể, xác suất mua hàng trong tháng 11 (25,4%) cao hơn rõ rệt so với tháng 3 (10,1%). Kết quả này khẳng định tác động của yếu tố mùa vụ đến hành vi mua sắm, và gợi ý rằng doanh nghiệp nên ưu tiên các chiến dịch tiếp thị, khuyến mãi vào tháng 11 để tận dụng thời điểm nhu cầu tăng cao.

4.2.3. Relative Risk

library(epitools)
riskratio(st2_sub)
## $data
##        
##         TRUE FALSE Total
##   Mar    192  1715  1907
##   Nov    760  2238  2998
##   Total  952  3953  4905
## 
## $measure
##      risk ratio with 95% C.I.
##        estimate     lower     upper
##   Mar 1.0000000        NA        NA
##   Nov 0.8300706 0.8090071 0.8516825
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact   chi.square
##   Mar         NA           NA           NA
##   Nov          0  2.25991e-42 9.755639e-40
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Kết quả phân tích cho thấy tỷ lệ phát sinh giao dịch trong tháng 11 cao hơn đáng kể so với tháng 3. Tỷ lệ rủi ro (risk ratio) ước tính là 0,83 với khoảng tin cậy 95% [0,809; 0,852], cùng giá trị p rất nhỏ (p < 0,001), khẳng định sự khác biệt có ý nghĩa thống kê. Điều này cho thấy yếu tố thời điểm (tháng trong năm) ảnh hưởng rõ rệt đến hành vi mua sắm, với tháng 11 là giai đoạn có hiệu quả chuyển đổi cao hơn.

4.2.4. Odd Ratio

oddsratio(st2_sub)
## $data
##        
##         TRUE FALSE Total
##   Mar    192  1715  1907
##   Nov    760  2238  2998
##   Total  952  3953  4905
## 
## $measure
##      odds ratio with 95% C.I.
##        estimate     lower     upper
##   Mar 1.0000000        NA        NA
##   Nov 0.3299251 0.2776203 0.3904155
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact   chi.square
##   Mar         NA           NA           NA
##   Nov          0  2.25991e-42 9.755639e-40
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
  • Dựa trên bảng tần suất, trong số 1.907 lượt khách truy cập trong tháng 3 (Mar), có 192 phiên mua hàng và 1.272 phiên không mua hàng. Trong khi đó, khách truy cập trong tháng 11 (Nov) có 760 giao dịch trên tổng số 2998 phiên truy cập.

Kết quả phân tích tỷ số odds (odds ratio) cho thấy:

  • Odds ratio = 0.33

  • Khoảng tin cậy 95%: [0,28 ; 0,39]

Điều này có nghĩa là: Khách truy cập trong tháng 11 có khả năng mua hàng gấp khoảng 0.33 lần so với khách truy câpj trong tháng 3, khi so sánh odds (xác suất xảy ra so với không xảy ra) giữa hai nhóm.

Các kiểm định đi kèm cũng cho kết quả rất thuyết phục:

  • p-value (Fisher’s exact) = 2.25991e-42

  • p-value (Chi-square) = 9.755639e-40

Với p-value rất nhỏ, ta bác bỏ giả thuyết không, kết luận rằng có mối liên hệ thống kê rõ rệt giữa tháng khách truy cập và khả năng phát sinh doanh thu.

4.3. Phân tích mối quan hệ giữa biến Weekend và Revenue

  • Biến Weekend phản ánh thời điểm khách hàng truy cập trang web – cụ thể là vào cuối tuần (TRUE) hay ngày thường (FALSE). Trong khi đó, biến Revenue cho biết phiên truy cập đó có phát sinh giao dịch mua hàng hay không.

  • Việc phân tích mối quan hệ giữa hai biến này giúp trả lời câu hỏi quan trọng trong hành vi tiêu dùng: Liệu người dùng có xu hướng mua sắm trực tuyến nhiều hơn vào cuối tuần?

  • Nếu tồn tại mối liên hệ có ý nghĩa thống kê giữa thời điểm truy cập (cuối tuần hay không) và khả năng mua hàng, doanh nghiệp có thể điều chỉnh lịch trình marketing, tối ưu hóa khuyến mãi hoặc nguồn lực vào những thời điểm có khả năng chuyển đổi cao.

4.3.1. Bảng tần suất chéo

st3 <- table(st$Weekend, st$Revenue) #tạo bảng tần số chéo
print(st3)
##        
##         FALSE TRUE
##   FALSE  8053 1409
##   TRUE   2369  499
prop.table(st3, margin = 1)# margin trả về tỷ lệ theo hàng 
##        
##             FALSE      TRUE
##   FALSE 0.8510886 0.1489114
##   TRUE  0.8260112 0.1739888

Trực quan hóa

# Chuyển sang data frame
st3_df <- as.data.frame(st3)
colnames(st3_df) <- c("Weekend", "Revenue", "Frequency")
# Vẽ biểu đồ từ bảng tần suất
ggplot(st3_df, aes(x = Revenue, y = Frequency, fill = Weekend)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ tần suất giữa Weekend và Revenue",
    x = "Revenue",
    y = "Tần suất"
  ) +
  theme_minimal()

Bảng tần suất cho thấy:

  • Vào ngày thường (Weekend = FALSE), có 1.409 phiên truy cập (14,9%) dẫn đến giao dịch và 8.053 phiên (85,1%) không mua hàng.

  • Trong khi đó, vào cuối tuần (Weekend = TRUE), tỷ lệ mua hàng tăng lên với 499 phiên có giao dịch (17,4%) trong tổng số 2.868 phiên.

  • Tỷ lệ chuyển đổi từ truy cập thành mua hàng vào cuối tuần cao hơn so với ngày thường (17,4% so với 14,9%), cho thấy có sự khác biệt nhẹ trong hành vi tiêu dùng giữa các ngày trong tuần.

Kết luận sơ bộ

  • Kết quả này gợi ý rằng khách hàng có xu hướng mua sắm trực tuyến nhiều hơn vào cuối tuần. Mặc dù mức chênh lệch không lớn, nhưng đủ để doanh nghiệp cân nhắc ưu tiên triển khai các hoạt động quảng bá và khuyến mãi vào cuối tuần nhằm tối ưu tỷ lệ chuyển đổi.

4.3.2. Kiểm định thông kê kiểm định chi bình phương

Giả thuyết:

\(H_0\) (giả thuyết không): Weekend và Revenue là hai biến độc lập.

\(H_1\) (giả thuyết đối): Weekend và Revenue có liên hệ với nhau.

chisq.test(st3)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  st3
## X-squared = 10.391, df = 1, p-value = 0.001266
  • Với mức ý nghĩa thông thường là 0.05, p-value = 0.0013 < 0.05 → bác bỏ giả thuyết không (\(H_0\)). Do đó, có bằng chứng thống kê cho thấy mối quan hệ có ý nghĩa giữa thời điểm truy cập (cuối tuần hoặc ngày thường) và khả năng phát sinh giao dịch (Revenue).

  • Kết quả này cho thấy khách truy cập vào cuối tuần có xu hướng mua hàng nhiều hơn so với ngày thường, dù mức chênh lệch tỷ lệ không quá lớn. Doanh nghiệp có thể tận dụng kết quả này để tăng cường hoạt động tiếp thị vào cuối tuần, khi nhu cầu mua sắm của người tiêu dùng có xu hướng cao hơn.

4.3.3. Relative Risk

library(epitools)
riskratio(st3)
## $data
##        
##         FALSE TRUE Total
##   FALSE  8053 1409  9462
##   TRUE   2369  499  2868
##   Total 10422 1908 12330
## 
## $measure
##        risk ratio with 95% C.I.
##         estimate   lower    upper
##   FALSE 1.000000      NA       NA
##   TRUE  1.168405 1.06447 1.282488
## 
## $p.value
##        two-sided
##          midp.exact fisher.exact  chi.square
##   FALSE          NA           NA          NA
##   TRUE  0.001285789    0.0013118 0.001142042
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Kết quả phân tích cho thấy tỷ lệ phát sinh giao dịch vào cuối tuần (Weekend = TRUE) cao hơn so với ngày thường, với risk ratio = 1,17 và khoảng tin cậy 95% [1,064; 1,282]. Giá trị p nhỏ (p ≈ 0,0013) cho thấy sự khác biệt này là có ý nghĩa thống kê. Điều này chỉ ra rằng cuối tuần là thời điểm người dùng có xu hướng mua hàng cao hơn, phản ánh hành vi tiêu dùng gắn với thời gian rảnh.

4.3.4. Odd Ratio

oddsratio(st3)
## $data
##        
##         FALSE TRUE Total
##   FALSE  8053 1409  9462
##   TRUE   2369  499  2868
##   Total 10422 1908 12330
## 
## $measure
##        odds ratio with 95% C.I.
##         estimate    lower    upper
##   FALSE 1.000000       NA       NA
##   TRUE  1.204066 1.075821 1.345768
## 
## $p.value
##        two-sided
##          midp.exact fisher.exact  chi.square
##   FALSE          NA           NA          NA
##   TRUE  0.001285789    0.0013118 0.001142042
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
  • Dựa trên bảng tần suất, trong tổng số 12.330 phiên truy cập, có 2.868 phiên diễn ra vào cuối tuần (Weekend = TRUE) và 9.462 phiên còn lại diễn ra vào ngày thường (Weekend = FALSE).

Trong đó:

  • Có 499 phiên cuối tuần phát sinh doanh thu, chiếm tỷ lệ ≈17,4%

  • Trong các phiên ngày thường, có 1.409 phiên tạo ra doanh thu, chiếm tỷ lệ ≈14,9%

Kết quả phân tích tỷ số odds (Odds Ratio): Odds ratio = 1,20

  • Khoảng tin cậy 95%: [1,08 ; 1,35]

  • Điều này có nghĩa là: phiên truy cập vào cuối tuần có khả năng phát sinh doanh thu cao hơn khoảng 20% so với phiên vào ngày thường, khi so sánh odds (tỷ lệ xảy ra / không xảy ra) giữa hai nhóm.

Kết quả kiểm định thống kê:

  • p-value (Fisher’s exact) = 0.0013

  • p-value (Chi-square) = 0.0011

Với các giá trị p < 0.01, ta bác bỏ giả thuyết không (H₀), kết luận rằng có mối liên hệ thống kê có ý nghĩa giữa ngày cuối tuần và khả năng phát sinh doanh thu.

PHẦN 5: PHÂN TÍCH SỰ TÁC ĐỘNG CỦA CÁC BIẾN LÊN BIẾN VISITORTYPE

5.1. Phân tích mối quan hệ giữa biến VisitorType và Weekend

  • Phân tích mối quan hệ giữa hai biến này nhằm tìm hiểu xem liệu mẫu hình truy cập của từng nhóm khách hàng có thay đổi theo thời gian trong tuần hay không. Điều này giúp doanh nghiệp hiểu rõ hơn về hành vi truy cập theo thời điểm của các loại khách, từ đó tối ưu hóa nội dung, thời gian tiếp thị hoặc điều chỉnh phân bổ ngân sách quảng cáo cho từng nhóm mục tiêu.

5.1.1. Bảng tần suất chéo

st4 <- table(st$VisitorType, st$Weekend) #tạo bảng tần số chéo
st4_sub <- st4[c("New_Visitor", "Returning_Visitor"), c("TRUE", "FALSE")]
print(st4_sub)
##                    
##                     TRUE FALSE
##   New_Visitor        479  1215
##   Returning_Visitor 2382  8169
prop.table(st4_sub, margin = 1)# margin trả về tỷ lệ theo hàng 
##                    
##                          TRUE     FALSE
##   New_Visitor       0.2827627 0.7172373
##   Returning_Visitor 0.2257606 0.7742394

Trực quan hóa

# Chuyển sang data frame
st4_df <- as.data.frame(st4_sub)
colnames(st4_df) <- c("VisitorType","Weekend", "Frequency")
# Vẽ biểu đồ từ bảng tần suất
ggplot(st4_df, aes(x = Weekend, y = Frequency, fill = VisitorType)) +
  geom_bar(stat = "identity", position = "dodge") +
  labs(
    title = "Biểu đồ tần suất giữa VisitorType và Weekend",
    x = "Weekend",
    y = "Tần suất"
  ) +
  theme_minimal()

Kết quả phân tích bảng tần suất cho thấy:

  • Trong tổng số 1.694 khách truy cập mới (New Visitor), có 479 phiên (28,3%) diễn ra vào cuối tuần.

  • Trong khi đó, trong số 10.551 khách quay lại (Returning Visitor), chỉ 22,6% phiên truy cập xảy ra vào cuối tuần.

  • Sự chênh lệch này cho thấy rằng khách truy cập mới có xu hướng truy cập trang web nhiều hơn vào cuối tuần so với khách quay lại. Ngược lại, phần lớn khách quay lại thực hiện hành vi truy cập vào các ngày trong tuần.

Kết luận

  • Kết quả này gợi ý rằng cuối tuần là thời điểm tương đối thuận lợi để thu hút khách hàng mới, có thể do họ có nhiều thời gian rảnh hơn để khám phá và thử các dịch vụ mới. Trong khi đó, khách hàng trung thành hoặc đã quen thuộc với website thường truy cập vào ngày thường, có thể nhằm mục đích mua sắm có chủ đích và nhanh chóng hơn.

  • Doanh nghiệp có thể tận dụng thông tin này để tùy biến nội dung hoặc khuyến mãi theo từng nhóm khách và thời điểm truy cập, từ đó tối ưu hiệu quả tương tác và chuyển đổi.

5.1.2. Kiểm định thông kê kiểm định chi bình phương

Giả thuyết:

\(H_0\) (giả thuyết không): VisitorType và Weekend là hai biến độc lập.

\(H_1\) (giả thuyết đối): VisitorType và Weekend có liên hệ với nhau.

chisq.test(st4_sub)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  st4_sub
## X-squared = 26.17, df = 1, p-value = 3.126e-07
  • Với mức ý nghĩa 0.05, ta thấy p-value rất nhỏ (< 0.001), do đó bác bỏ giả thuyết không (\(H_0\)). Điều này khẳng định rằng có mối liên hệ có ý nghĩa thống kê giữa loại khách truy cập (VisitorType) và thời điểm truy cập (Weekend).

  • Cụ thể, tỷ lệ khách mới truy cập vào cuối tuần (≈28,3%) cao hơn đáng kể so với khách quay lại (≈22,6%). Kết quả này cho thấy hành vi truy cập có sự khác biệt giữa hai nhóm người dùng, gợi ý rằng:

  • Khách hàng mới có xu hướng truy cập vào cuối tuần, khi họ có nhiều thời gian hơn để khám phá website.

  • Khách hàng quay lại có xu hướng truy cập vào ngày thường, có thể vì họ đã quen thuộc với dịch vụ/sản phẩm và có mục đích mua rõ ràng.

5.1.3. Relative Risk

library(epitools)
riskratio(st4_sub)
## $data
##                    
##                     TRUE FALSE Total
##   New_Visitor        479  1215  1694
##   Returning_Visitor 2382  8169 10551
##   Total             2861  9384 12245
## 
## $measure
##                    risk ratio with 95% C.I.
##                     estimate   lower    upper
##   New_Visitor       1.000000      NA       NA
##   Returning_Visitor 1.079475 1.04587 1.114159
## 
## $p.value
##                    two-sided
##                       midp.exact fisher.exact  chi.square
##   New_Visitor                 NA           NA          NA
##   Returning_Visitor 4.337945e-07   4.4686e-07 2.65243e-07
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"
  • Kết quả cho thấy Returning Visitor có khả năng truy cập vào cuối tuần cao hơn New Visitor, với risk ratio = 1,08 và khoảng tin cậy 95% [1,046; 1,114]. Giá trị p rất nhỏ (p ≈ 0,0000004) chứng tỏ sự khác biệt có ý nghĩa thống kê. Điều này cho thấy khách quay lại có xu hướng truy cập trang web vào cuối tuần nhiều hơn so với khách mới, phản ánh hành vi gắn bó và mức độ tương tác theo thời gian.

5.1.4. Odd Ratio

oddsratio(st4_sub)
## $data
##                    
##                     TRUE FALSE Total
##   New_Visitor        479  1215  1694
##   Returning_Visitor 2382  8169 10551
##   Total             2861  9384 12245
## 
## $measure
##                    odds ratio with 95% C.I.
##                     estimate    lower    upper
##   New_Visitor       1.000000       NA       NA
##   Returning_Visitor 1.352226 1.204284 1.516327
## 
## $p.value
##                    two-sided
##                       midp.exact fisher.exact  chi.square
##   New_Visitor                 NA           NA          NA
##   Returning_Visitor 4.337945e-07   4.4686e-07 2.65243e-07
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"
  • Dựa trên bảng tần suất, trong số 1.694 khách truy cập mới (New Visitor), có 479 phiên truy cập vào cuối tuần và 1.215 phiên vào ngày thường. Trong khi đó, nhóm Returning Visitor có 2.382 phiên vào cuối tuần trên tổng số 10.551 phiên truy cập.

Kết quả phân tích tỷ số odds (Odds Ratio):

  • Odds ratio = 1,35

  • Khoảng tin cậy 95%: [1,20 ; 1,52]

Điều này có nghĩa là: Khách quay lại có khả năng truy cập vào cuối tuần cao hơn khoảng 1,35 lần so với khách mới, khi so sánh xác suất xảy ra hành vi (truy cập cuối tuần) trên xác suất không xảy ra giữa hai nhóm.

Kết quả kiểm định thống kê:

  • p-value (Fisher’s exact) = 4.47e-07

  • p-value (Chi-square) = 2.65e-07

Với các giá trị p rất nhỏ (< 0.001), ta bác bỏ giả thuyết không \(H_0\), khẳng định rằng có mối liên hệ thống kê có ý nghĩa giữa loại khách truy cập và xác suất truy cập cuối tuần.