1 LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn đến các thầy cô của trường Đại học Tài chính – Marketing, đặc biệt là các thầy cô bộ môn Khoa Kinh tế - Luật đã tận tình giảng dạy và chỉ dẫn em trong quá trình học tập vừa qua. Và em xin chân thành cảm ơn thầy Trần Mạnh Tường đã giúp đỡ, hướng dẫn em hoàn thành bài tiểu luận môn Phân tích dữ liệu định tính này một cách tốt nhất. Em xin chúc thầy cô có nhiều sức khỏe, hạnh phúc và thành công trên con đường sự nghiệp của mình.

Trong quá trình hoàn thành tiểu luận em khó tránh khỏi nhiều thiếu sót, em rất mong nhận được những ý kiến đóng góp từ thầy cô, từ đó giúp em hoàn thiện, học hỏi thêm được nhiều kinh nghiệm và củng cố thêm kiến thức của mình.

Lời cuối cùng, em xin kính chúc thầy, cô thật nhiều sức khỏe, đạt được nhiều thành công và phát triển.

Em xin chân thành cảm ơn!

2 CHƯƠNG 1: PHẦN MỞ ĐẦU

2.1 Lý do chọn đề tài

Mua sắm trực tuyến đã trở thành một phương thức mua sắm phổ biến và ngày càng phát triển trên thế giới trong những năm gần đây. Điều này được thể hiện qua tỷ lệ người tiêu dùng mua sắm trực tuyến cũng như doanh thu từ hoạt động bán lẻ trực tuyến không ngừng gia tăng theo thời gian. Do đó, để thu hút người tiêu dùng mua sắm trực tuyến nhiều hơn thì việc nhận biết được các yếu tố tác động đến ý định mua trực tuyến của khách hàng là rất cần thiết đối với các nhà bán lẻ trực tuyến. Bởi vì, ý định mua sắm thường được xem là một trong hai yếu tố có ảnh hưởng mang tính quyết định đến hành vi mua sắm của người tiêu dùng.

Có rất nhiều loại hình kinh doanh mới ra đời, mang lại sự tiện lợi và cắt giảm chi phí cho cả hai bên giao dịch. Một trong những loại hình ấy chính là Thương mại điện tử (E-commerce), với “ông trùm” Amazon đứng đầu trong danh sách hàng ngàn những trang web bán hàng thuộc lĩnh vực này. Tuy vậy, để có được vị thế và sức ảnh hưởng như ngày hôm nay, Amazon đã trải qua một quá trình đối diện với những thay đổi và cải tiến không những về sản phẩm, dịch vụ mà còn về định hướng phát triển để bắt kịp thị trường biến động ngoài kia. Và tất nhiên, những sự thay đổi và cải tiến này không phải được tạo ra trong ngày một ngày hai, mà đó là chính sự nỗ lực và cố gắng trong nội bộ để đề ra những chiến lược và kế hoạch dài hơi cho hoạt động của doanh nghiệp.

Chính vì thế em quyết định chọn đề tài “PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN HÀNH VI TIÊU DÙNG CỦA KHÁCH HÀNG TRÊN WEBSITE AMAZON”.

2.2 Mục tiêu nghiên cứu

Đề tài bài tiểu luận này này phân tích hành vi tiêu dùng của khách khàng khi sử dụng dịch vụ wedside của AMAZON, từ đó có thể biết được rằng khách hàng thường hay sử dụng chức năng nào, xu hướng người tiêu dùng ra sao, yếu tố nào tác động mạnh đến xu hướng mua hàng.

2.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: khách hàng sử dụng dịch vụ website AMAZON.

Thời gian thực hiện khảo sát: từ ngày 4/6/2023 đến ngày 16/6/2023, khảo sát 601 người dùng.

2.4 Kết cấu đề tài

Nội dung bài tiểu luận bao gồm:

Chương 1: Phần mở đầu

Chương 2: Tổng quan lý thuyết và dữ liệu nghiên cứu

Chương 3: Thống kê mô tả

Chương 4: Thống kê suy diễn

Chương 5: Mô hình hồi quy

Chương 6: Kết luận

3 CHƯƠNG 2: TỔNG QUAN LÝ THUYẾT VÀ DỮ LIỆU NGHIÊN CỨU

3.1 Giới thiệu về AMAZON

Amazon.com, Inc, hay tên thường gọi là Amazon, là công ty thương mai điện tử và điện toán đám mây có trụ sở tại Seattle, Washington, Mỹ. Đây là dịch vụ bán lẻ trên nền tảng Internet lớn nhất thế giới tính theo doanh số bán và giá vốn hóa thị trường. Khởi nghiệp với hình thức kinh doanh sách qua mạng, Amazon nhanh chóng lấn sân sang rao bán các loại đĩa CD, DVD, đầu máy, đồ chơi, trang sức, thực phẩm,… Dạo gần đây, công ty còn tự đầu tư sản xuất những mặt hàng tiêu dùng điện tử, tiêu biểu phải kể đến máy tính bảng Kindle Fire, TV Fire,… Bên cạnh đó, Amazon hiện nay đã trở thành nhà cung cấp số 1 thế giới về dịch vụ điện toán đám mây (IaaS và PaaS).

Amazon có một hệ thống bán lẻ gồm nhiều quốc gia khác nhau bao gồm: Mỹ, Anh, Canada, Ireland, Pháp, Ý, Úc, Brazil, Nhật Bản,… Với nhiều sản phẩm, Amazon cho phép người mua sử dụng dịch vụ giao hàng trên toàn thế giới, qua hình thức đặt và thanh toán trực tuyến qua mạng (website Amazon.com).

3.2 Mô tả dữ liệu nghiên cứu

Bộ dữ liệu được thu thập từ người dùng trang web mua sắm Amazon, bộ dữ liệu có tên là “Amazon consumer Behaviour Dataset” bao gồm 601 khảo sát và 23 biến. Bộ dữ liệu lấy khảo sát của 601 người dùng về tương tác của khách hàng trong khi sử dụng trang web. Bao gồm nhiều biến như giới tính, tương tác của người dùng và đánh giá của khách hàng khi trải nghiệm sử dụng dịch vụ trang web Amazon. Sau khi thu thập được nhiều đánh giá của khách hàng, các nhà quản trị có thể hiểu sau hơn về hành vi tiêu dùng của khách hàng, từ đó xác định được xu hướng và tối ưu hóa các chiến lược tiếp thị và cải thiện trải nghiệm tổng thể trang wed tăng sự hài lòng của khách hàng về dịch vụ của Amazon.

3.3 Mô tả các biến nghiên cứu

Bộ dữ liệu bao gồm 23 biến và 601 quan sát. Trong đó có định lượng và định tính.

ID: mã khách hàng
Age: tuổi khách hàng
Gender: giới tính khách hàng
Purchase Frequency: Tần suất mua hàng trên website
Purchase Categories: Nhóm sản phẩm thường mua
Personalized Recommendation Frequency: Trả lời câu hỏi có thường mua sản phẩm được đề xuất trên website hay không (Câu trả lời là Yes/No/Sometimes)
Browsing Frequency: Trả lời câu hỏi khách hàng có thường dùng website AMAZON hay app (Câu trả lời là Few times a week /Few times a moth/Multiple times a day/Rarely)
Product Search Method: Trả lời câu hỏi khách hàng thường tìm kiếm sản phẩm như thế nào (Câu trả lời là Categories, Keywword, Filter, Oder)
Customer Reviews Importance: Trả lời câu hỏi phần đánh giá của khách hàng ảnh hướng như thế nào đến quyết định mua của bạn (câu trả lời được đánh giá trên thang điểm 5)
Saveforlater Frequency: Trả lời câu hỏi khách hàng có thường sử dụng tính năng “Save to later” trên AMAZON không (Câu trả lời là Alway/Never/Often/Sometimes/Rarely)
Review Left: Trả lời câu hỏi khách hàng có thường để lại đánh giá trên website hay không (Câu trả lời là Yes/No)
Review Reliability: Trả lời câu hỏi khách hàng tin tưởng bao nhiêu đối với đánh giá sản phẩm (Câu trả lời là Heavily/Occasionally/Moderately/Never/Rarely)
Review Helpfulness: Trả lời câu hỏi khách hàng có thấy hữu ích từ thông tin đánh giá sản phẩm hay không (Câu trả lời là Yes/No/Sometimes)
Recommendation Helpfulness: Trả lời câu hỏi khách hàng có thấy hữu ích từ đề xuất hay không (Câu trả lời là Yes/No/Sometimes)
Shopping Satisfaction: Khách hàng đánh giá trải nghiệm mua sắm trên website AMAZON (câu trả lời được đánh giá trên thang Excellent/Good/Average/Poor/Very bad)
Total: Tổng số sản phẩm khách hàng mua trong 1 tháng

3.4 Dữ liệu nghiên cứu

library(readxl)
library(DT)

## Warning: package 'DT' was built under R version 4.3.1

library(flextable)

## Warning: package 'flextable' was built under R version 4.3.1

dataset <- read_excel("D:/data/data PTDLDT.xlsx")
datatable(dataset)

ID <- dataset$ID
Age <- dataset$Age
Gender <- dataset$Gender
PF <- dataset$`Purchase Frequency`
PC <- dataset$`Purchase Categories`
PR <- dataset$`Personalized Recommendation Frequency`
BF <- dataset$`Browsing Frequency`
PS <- dataset$`Product Search Method`
CR <- dataset$`Customer Reviews Importance`
SF <- dataset$`Saveforlater Frequency`
RL <- dataset$`Review Left`
RR <- dataset$`Review Reliability`
RH <- dataset$`Review Helpfulness`
RHS <- dataset$`Recommendation Helpfulness`
SS <- dataset$`Shopping Satisfaction`
Total <- dataset$Total

3.5 Xác định biến phụ thuộc

3.5.1 Xác định biến định tính làm biến phụ thuộc

Biến Shopping Satisfaction là biến phụ thuộc. Đây là biến phản ứng của khách hàng sau khi sử dụng dịch của AMAZON, được khảo sát qua nhiều câu hỏi mới đưa ra được mức độ phản ánh phù hợp.

3.5.2 Xác định biến định lượng làm biến phụ thuộc

Biến Total là biến phụ thuộc. Đây là biến tổng sản phẩm khách hàng mua trong 1 tháng.

4 CHƯƠNG 3: THỐNG KÊ MÔ TẢ

4.1 Thống kê mô tả cho 1 biến

4.1.1 Thống kê mô tả biến Age

summary(Age)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   16.00   23.00   26.00   30.84   36.00   67.00

Kết quả trên cho thấy độ tuổi khách hàng dao động từ 16 - 67 tuổi. Độ tuổi trung bình là 26 tuổi.

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.3.1

hist(Age, main = "Biểu đồ tần số của biến age",xlab = "Age", ylab = "Custumer", col = "#9ACD32")

Nhìn chung độ tuổi 20-35 tuổi là khung khách hàng chủ yếu của AMAZON, do lứa tuổi này tiếp cận và cập nhật được internet mạnh mẽ nhất.

4.1.2 Thống kê mô tả biến Gender

Bảng tần số

table(Gender)

## Gender
## Female   Male 
##    391    210

Có 391 Khách hàng là nữ và 210 Khách hàng là nam.

Bảng tần suất

table(Gender)/sum(table(Gender))

## Gender
##    Female      Male 
## 0.6505824 0.3494176

Có khoảng 65,06% Khách hàng là nữ và 34,94% Khách hàng là nam trong khảo sát.

Đồ thị

ggplot(dataset,aes(Gender)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Gender")

Nhìn vào đồ thị có thể thấy tỷ lệ khách hàng nữ nhiều hơn khách hàng nam là 30% do khách hàng nữ có nhiều nhu cầu mua sắm hơn, đặc biệt là nhu cầu làm đẹp, đây là thị phần không thể kể đến trong danh mục bán hàng của AMAZON.

4.1.3 Thống kê mô tả biến Purchase Frequency

Bảng tần số

table(PF)

## PF
##      Few times a month Less than once a month  Multiple times a week 
##                    202                    124                     56 
##           Once a month            Once a week 
##                    107                    112

Bảng tần suất

table(PF)/sum(table(PF))

## PF
##      Few times a month Less than once a month  Multiple times a week 
##             0.33610649             0.20632280             0.09317804 
##           Once a month            Once a week 
##             0.17803661             0.18635607

Tần suất mua hàng trên AMAZON “Few times a month” một vài lần trên một tháng là 202 khách, hàng chiếm 33,91%; “Less than once a month” ít hơn 1 lần trong tháng là 124 khách hàng, chiếm 20,63%; “Multiple times a week” Nhiều lần một tuần là 56 khách hàng, chiếm 9,32%; ” Once a month” mỗi tháng 1 lần là 107 khách hàng, chiếm 17,8%; ” Once a week” mỗi tuần 1 lần là 112 khách hàng, chiếm 18,63%.

Đồ thị

ggplot(dataset,aes(PF)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Purchase Frequency")

Nhìn vào đồ thị thấy được khách hàng mua vài lần 1 tháng chiếm nhiều hơn những phản hồi khác, nhưng khách hàng ít mua sản phẩm cũng chiếm khá nhiều bằng 1/5 trên tổng khách hàng của AMAZON.

4.1.4 Thống kê mô tả biến Personalized Recommendation Frequency

Bảng tần số

table(PR)

## PR
##        No Sometimes       Yes 
##       250       229       122

Bảng tần suất

table(PR)/sum(table(PR))

## PR
##        No Sometimes       Yes 
## 0.4159734 0.3810316 0.2029950

Khách hàng có mua sản phẩm được đề xuất là 122 khách hàng, chiếm 20,3% trên tổng số khách hàng.

Khách hàng không mua sản phẩm được đề xuất là 250 khách hàng, chiếm 41,6% trên tổng số khách hàng.

Khách hàng thỉnh thoảng mua sản phẩm được đề xuất là 229 khách hàng, chiếm 38,1% trên tổng số khách hàng.

Đồ thị

ggplot(dataset,aes(PR)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Browsing Frequency")

Đồ thị cho thấy khách hàng không mua sản phẩm được đề xuất chiếm khá nhiều, lượng khách hàng mua những sản phẩm đề xuất chỉ chiếm cỡ 20% trên tổng số, chỉ bằng phân nữa lượng khách không mua.

4.1.5 Thống kê mô tả biến Browsing Frequency

Bảng tần số

table(BF)

## BF
##    Few times a month     Few times a week Multiple times a day 
##                  198                  249                   77 
##               Rarely 
##                   77

Bảng tần suất

table(BF)/sum(table(BF))

## BF
##    Few times a month     Few times a week Multiple times a day 
##            0.3294509            0.4143095            0.1281198 
##               Rarely 
##            0.1281198

Tần suất khách hàng thường dùng website hay app AMAZON “Few times a month” một vài lần trên một tháng là 198 khách, hàng chiếm 32,9%; “Few times a week” ít hơn 1 lần trong tháng là 249 khách hàng, chiếm 41,43%; “Multiple times a day” Nhiều lần một ngày là 77 khách hàng, chiếm 12,8%; “Rarely” hiếm khi là 77 khách hàng, chiếm 12,8%.

ggplot(dataset,aes(BF)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Browsing Frequency")

4.1.6 Thống kê mô tả biến Product Search Method

Bảng tần số

table(PS)

## PS
## categories     Filter    Keyword     others 
##        223        127        215         36

Bảng tần suất

table(PS)/sum(table(PS))

## PS
## categories     Filter    Keyword     others 
## 0.37104825 0.21131448 0.35773710 0.05990017

Tần suất khách hàng tìm kiếm bằng “categories” là 223 khách hàng chiếm 37,1%

Tần suất khách hàng tìm kiếm bằng “Filter” là 127 khách hàng chiếm 21,1%

Tần suất khách hàng tìm kiếm bằng “Keyword” là 215 khách hàng chiếm 35,7%

Tần suất khách hàng tìm kiếm bằng khác là 36 khách hàng chiếm 6%

Đồ thị

ggplot(dataset,aes(PS)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Product Search Method")

4.1.7 Thống kê mô tả biến Customer Reviews Importance

Bảng tần số

table(CR)

## CR
##   1   2   3   4   5 
## 169 114 216  64  38

Bảng tần suất

table(CR)/sum(table(CR))

## CR
##          1          2          3          4          5 
## 0.28119800 0.18968386 0.35940100 0.10648918 0.06322795

Tần suất thang điểm phần đánh giá khách hàng 1 điểm trên 5 điểm là 169 khách hàng, chiếm 28,1%

Tần suất thang điểm phần đánh giá khách hàng 2 điểm trên 5 điểm là 114 khách hàng, chiếm 18,7%

Tần suất thang điểm phần đánh giá khách hàng 3 điểm trên 5 điểm là 216 khách hàng, chiếm 35,9%

Tần suất thang điểm phần đánh giá khách hàng 4 điểm trên 5 điểm là 64 khách hàng, chiếm 10,6%

Tần suất thang điểm phần đánh giá khách hàng 5 điểm trên 5 điểm là 38 khách hàng, chiếm 6,3%

Đồ thị

ggplot(dataset,aes(CR)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Customer Reviews Importance")

4.1.8 Thống kê mô tả biến Saveforlater Frequency

Bảng tần số

table(SF)

## SF
##    Always     Never     Often    Rarely Sometimes 
##        54        59       156        81       251

Bảng tần suất

table(SF)/sum(table(SF))

## SF
##     Always      Never      Often     Rarely  Sometimes 
## 0.08985025 0.09816972 0.25956739 0.13477537 0.41763727

Tần suất khách hàng “Always” luôn luôn sử dụng chức năng “Saveforlater” là 54 khách hàng, chiếm 8,99%

Tần suất khách hàng “Never” không bao giờ sử dụng chức năng “Saveforlater” là 59 khách hàng, chiếm 9,82%

Tần suất khách hàng “Often” thường sử dụng chức năng “Saveforlater” là 156 khách hàng, chiếm 25,96%

Tần suất khách hàng “Rarely” không bao giờ sử dụng chức năng “Saveforlater” là 81 khách hàng, chiếm 13,48%

Tần suất khách hàng “Sometimes” thỉnh thoảng sử dụng chức năng “Saveforlater” là 251 khách hàng, chiếm 41,76%

Đồ thị

ggplot(dataset,aes(SF)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Saveforlater Frequency")

4.1.9 Thống kê mô tả biến Review Left

Bảng tần số

table(RL)

## RL
##  No Yes 
## 291 310

Bảng tần suất

table(RL)/sum(table(RL))

## RL
##       No      Yes 
## 0.484193 0.515807

Tần suất khách hàng để lại đánh giá trên website là 310 khách hàng, chiếm 51,58%

Tần suất khách hàng không để lại đánh giá trên website là 291 khách hàng, chiếm 48,41%

Đồ thị

ggplot(dataset,aes(RL)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Review Left")

4.1.10 Thống kê mô tả biến Review Reliability

Bảng tần số

table(RR)

## RR
##      Heavily   Moderately        Never Occasionally       Rarely 
##          149          199           23          189           41

Bảng tần suất

table(RR)/sum(table(RR))

## RR
##      Heavily   Moderately        Never Occasionally       Rarely 
##   0.24792013   0.33111481   0.03826955   0.31447587   0.06821963

Đồ thị

ggplot(dataset,aes(RR)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Review Reliability")

4.1.11 Thống kê mô tả biến Review Helpfulness

Bảng tần số

table(RH)

## RH
##        No Sometimes       Yes 
##       137       227       237

Bảng tần suất

table(RH)/sum(table(RH))

## RH
##        No Sometimes       Yes 
## 0.2279534 0.3777038 0.3943428

Đồ thị

ggplot(dataset,aes(RH)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Review Helpfulness")

4.1.12 Thống kê mô tả biến Recommendation Helpfulness

Bảng tần số

table(RHS)

## RHS
##        No Sometimes       Yes 
##       171       273       157

Bảng tần suất

table(RHS)/sum(table(RHS))

## RHS
##        No Sometimes       Yes 
## 0.2845258 0.4542429 0.2612313

Đồ thị

ggplot(dataset,aes(RHS)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Recommendation Helpfulness")

4.1.13 Thống kê mô tả biến Shopping Satisfaction

Bảng tần số

table(SS)

## SS
##   Average Excellent      Good      Poor  Very Bad 
##       209        17        67       193       115

Bảng tần suất

table(SS)/sum(table(SS))

## SS
##    Average  Excellent       Good       Poor   Very Bad 
## 0.34775374 0.02828619 0.11148087 0.32113145 0.19134775

Đồ thị

ggplot(dataset,aes(SS)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Shopping Satisfaction")

4.1.14 Thống kê mô tả biến Shopping Satisfaction

Bảng tần số

table(Total)

## Total
##   0   1   2   3   4   5 
## 107  93  98 107  98  98

Bảng tần suất

table(Total)/sum(table(Total))

## Total
##         0         1         2         3         4         5 
## 0.1780366 0.1547421 0.1630616 0.1780366 0.1630616 0.1630616

Đồ thị

ggplot(dataset,aes(Total)) + geom_text(aes(label = scales::percent(after_stat(count/sum(count)))), stat ='count', color = '#CD6889', vjust = - .5) + geom_bar(color ="black", fill = "#9ACD32") + ylab("Customer") +
  xlab("Shopping Satisfaction")

4.2 Thống kê mô tả cho 2 biến

4.2.1 Phân tích trải nghiệm khách hàng theo tần suất mua hàng

A <- table(dataset$`Purchase Frequency`,dataset$`Shopping Satisfaction`)
A

##                         
##                          Average Excellent Good Poor Very Bad
##   Few times a month           80         4   18   67       33
##   Less than once a month      34         6   15   41       28
##   Multiple times a week       17         3    6   17       13
##   Once a month                34         2   13   34       24
##   Once a week                 44         2   15   34       17

prop.table(A)

##                         
##                              Average   Excellent        Good        Poor
##   Few times a month      0.133111481 0.006655574 0.029950083 0.111480865
##   Less than once a month 0.056572379 0.009983361 0.024958403 0.068219634
##   Multiple times a week  0.028286190 0.004991681 0.009983361 0.028286190
##   Once a month           0.056572379 0.003327787 0.021630616 0.056572379
##   Once a week            0.073211314 0.003327787 0.024958403 0.056572379
##                         
##                             Very Bad
##   Few times a month      0.054908486
##   Less than once a month 0.046589018
##   Multiple times a week  0.021630616
##   Once a month           0.039933444
##   Once a week            0.028286190

addmargins(A)

##                         
##                          Average Excellent Good Poor Very Bad Sum
##   Few times a month           80         4   18   67       33 202
##   Less than once a month      34         6   15   41       28 124
##   Multiple times a week       17         3    6   17       13  56
##   Once a month                34         2   13   34       24 107
##   Once a week                 44         2   15   34       17 112
##   Sum                        209        17   67  193      115 601

library(ggplot2)
ggplot(dataset, aes(SS, fill = PF)) + geom_bar(position = 'dodge')

Rủi ro tương đối (relative risk).

library(DescTools)

## Warning: package 'DescTools' was built under R version 4.3.1

library(epitools)
riskratio(A)

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $data
##                         
##                          Average Excellent Good Poor Very Bad Total
##   Few times a month           80         4   18   67       33   202
##   Less than once a month      34         6   15   41       28   124
##   Multiple times a week       17         3    6   17       13    56
##   Once a month                34         2   13   34       24   107
##   Once a week                 44         2   15   34       17   112
##   Total                      209        17   67  193      115   601
## 
## $measure
##                         risk ratio with 95% C.I.
##                           estimate     lower     upper
##   Few times a month      1.0000000        NA        NA
##   Less than once a month 3.1500000 0.9413673 10.540519
##   Multiple times a week  3.1500000 0.7649936 12.970696
##   Once a month           1.1666667 0.2236409  6.086145
##   Once a week            0.9130435 0.1738013  4.796560
## 
## $p.value
##                         two-sided
##                          midp.exact fisher.exact chi.square
##   Few times a month              NA           NA         NA
##   Less than once a month 0.07073782   0.09905885  0.1040156
##   Multiple times a week  0.15240981   0.32524521  0.3715926
##   Once a month           0.83612644   0.48668618  0.5015208
##   Once a week            0.94748142   0.79507086  0.8032102
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

epitab(A, method = 'riskratio', rev = 'c')

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $tab
##                         
##                          Very Bad        p0 Poor        p1 riskratio     lower
##   Few times a month            33 0.1633663   67 0.3316832 1.0000000        NA
##   Less than once a month       28 0.2258065   41 0.3306452 0.8868700 0.6985972
##   Multiple times a week        13 0.2321429   17 0.3035714 0.8457711 0.6009008
##   Once a month                 24 0.2242991   34 0.3177570 0.8749357 0.6771438
##   Once a week                  17 0.1517857   34 0.3035714 0.9950249 0.7843835
##                         
##                             upper    p.value
##   Few times a month            NA         NA
##   Less than once a month 1.125882 0.09905885
##   Multiple times a week  1.190427 0.32524521
##   Once a month           1.130502 0.48668618
##   Once a week            1.262233 0.79507086
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Odd Ratio

oddsratio(A)

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $data
##                         
##                          Average Excellent Good Poor Very Bad Total
##   Few times a month           80         4   18   67       33   202
##   Less than once a month      34         6   15   41       28   124
##   Multiple times a week       17         3    6   17       13    56
##   Once a month                34         2   13   34       24   107
##   Once a week                 44         2   15   34       17   112
##   Total                      209        17   67  193      115   601
## 
## $measure
##                         odds ratio with 95% C.I.
##                           estimate     lower     upper
##   Few times a month      1.0000000        NA        NA
##   Less than once a month 3.4487031 0.8994648 14.832646
##   Multiple times a week  3.5083951 0.5997771 18.318674
##   Once a month           1.2147057 0.1446625  6.936388
##   Once a week            0.9410246 0.1127155  5.330380
## 
## $p.value
##                         two-sided
##                          midp.exact fisher.exact chi.square
##   Few times a month              NA           NA         NA
##   Less than once a month 0.07073782   0.09905885  0.1040156
##   Multiple times a week  0.15240981   0.32524521  0.3715926
##   Once a month           0.83612644   0.48668618  0.5015208
##   Once a week            0.94748142   0.79507086  0.8032102
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

epitab(A, method = 'oddsratio')

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $tab
##                         
##                          Average         p0 Excellent        p1 oddsratio
##   Few times a month           80 0.38277512         4 0.2352941 1.0000000
##   Less than once a month      34 0.16267943         6 0.3529412 3.5294118
##   Multiple times a week       17 0.08133971         3 0.1764706 3.5294118
##   Once a month                34 0.16267943         2 0.1176471 1.1764706
##   Once a week                 44 0.21052632         2 0.1176471 0.9090909
##                         
##                              lower     upper    p.value
##   Few times a month             NA        NA         NA
##   Less than once a month 0.9360135 13.308299 0.09905885
##   Multiple times a week  0.7227494 17.235222 0.32524521
##   Once a month           0.2056372  6.730703 0.48668618
##   Once a week            0.1600780  5.162772 0.79507086
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

4.2.2 Phân tích trải nghiệm khách hàng theo khách hàng có thường dùng website

B <- table(dataset$`Browsing Frequency`,dataset$`Shopping Satisfaction`)
B

##                       
##                        Average Excellent Good Poor Very Bad
##   Few times a month         82         3   21   64       28
##   Few times a week          88         3   30   81       47
##   Multiple times a day      20         2    6   20       29
##   Rarely                    19         9   10   28       11

prop.table(B)

##                       
##                            Average   Excellent        Good        Poor
##   Few times a month    0.136439268 0.004991681 0.034941764 0.106489185
##   Few times a week     0.146422629 0.004991681 0.049916805 0.134775374
##   Multiple times a day 0.033277870 0.003327787 0.009983361 0.033277870
##   Rarely               0.031613977 0.014975042 0.016638935 0.046589018
##                       
##                           Very Bad
##   Few times a month    0.046589018
##   Few times a week     0.078202995
##   Multiple times a day 0.048252912
##   Rarely               0.018302829

addmargins(B)

##                       
##                        Average Excellent Good Poor Very Bad Sum
##   Few times a month         82         3   21   64       28 198
##   Few times a week          88         3   30   81       47 249
##   Multiple times a day      20         2    6   20       29  77
##   Rarely                    19         9   10   28       11  77
##   Sum                      209        17   67  193      115 601

library(ggplot2)
ggplot(dataset, aes(SS, fill = BF)) + geom_bar(position = 'dodge')

Rủi ro tương đối (relative risk).

library(DescTools)
library(epitools)
riskratio(B)

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $data
##                       
##                        Average Excellent Good Poor Very Bad Total
##   Few times a month         82         3   21   64       28   198
##   Few times a week          88         3   30   81       47   249
##   Multiple times a day      20         2    6   20       29    77
##   Rarely                    19         9   10   28       11    77
##   Total                    209        17   67  193      115   601
## 
## $measure
##                       risk ratio with 95% C.I.
##                         estimate     lower     upper
##   Few times a month    1.0000000        NA        NA
##   Few times a week     0.9340659 0.1937929  4.502122
##   Multiple times a day 2.5757576 0.4581620 14.480744
##   Rarely               9.1071429 2.6489939 31.310019
## 
## $p.value
##                       two-sided
##                          midp.exact fisher.exact   chi.square
##   Few times a month              NA           NA           NA
##   Few times a week     0.9353882423 0.5771883895 0.5876262584
##   Multiple times a day 0.3302432656 0.0006289607 0.0005233805
##   Rarely               0.0001577609 0.0020575618 0.0012744953
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

epitab(B, method = 'riskratio', rev = 'c')

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $tab
##                       
##                        Very Bad        p0 Poor        p1 riskratio     lower
##   Few times a month          28 0.1414141   64 0.3232323 1.0000000        NA
##   Few times a week           47 0.1887550   81 0.3253012 0.9096680 0.7530889
##   Multiple times a day       29 0.3766234   20 0.2597403 0.5867347 0.4080266
##   Rarely                     11 0.1428571   28 0.3636364 1.0320513 0.8129200
##                       
##                            upper      p.value
##   Few times a month           NA           NA
##   Few times a week     1.0988023 0.5771883895
##   Multiple times a day 0.8437137 0.0006289607
##   Rarely               1.3102518 0.0020575618
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Odd Ratio

oddsratio(B)

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $data
##                       
##                        Average Excellent Good Poor Very Bad Total
##   Few times a month         82         3   21   64       28   198
##   Few times a week          88         3   30   81       47   249
##   Multiple times a day      20         2    6   20       29    77
##   Rarely                    19         9   10   28       11    77
##   Total                    209        17   67  193      115   601
## 
## $measure
##                       odds ratio with 95% C.I.
##                          estimate     lower     upper
##   Few times a month     1.0000000        NA        NA
##   Few times a week      0.9321992 0.1562621  5.561994
##   Multiple times a day  2.7590213 0.3041586 19.299365
##   Rarely               12.1775068 3.2185481 62.281597
## 
## $p.value
##                       two-sided
##                          midp.exact fisher.exact   chi.square
##   Few times a month              NA           NA           NA
##   Few times a week     0.9353882423 0.5771883895 0.5876262584
##   Multiple times a day 0.3302432656 0.0006289607 0.0005233805
##   Rarely               0.0001577609 0.0020575618 0.0012744953
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

epitab(B, method = 'oddsratio')

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $tab
##                       
##                        Average         p0 Excellent        p1  oddsratio
##   Few times a month         82 0.39234450         3 0.1764706  1.0000000
##   Few times a week          88 0.42105263         3 0.1764706  0.9318182
##   Multiple times a day      20 0.09569378         2 0.1176471  2.7333333
##   Rarely                    19 0.09090909         9 0.5294118 12.9473684
##                       
##                            lower     upper      p.value
##   Few times a month           NA        NA           NA
##   Few times a week     0.1828751  4.747968 0.5771883895
##   Multiple times a day 0.4277406 17.466454 0.0006289607
##   Rarely               3.1969551 52.435628 0.0020575618
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

4.2.3 Phân tích trải nghiệm khách hàng theo khách hàng để lại đánh giá sản phẩm

C <- table(dataset$`Review Left`,dataset$`Shopping Satisfaction`)
C

##      
##       Average Excellent Good Poor Very Bad
##   No       90         9   39  105       48
##   Yes     119         8   28   88       67

prop.table(C)

##      
##          Average  Excellent       Good       Poor   Very Bad
##   No  0.14975042 0.01497504 0.06489185 0.17470882 0.07986689
##   Yes 0.19800333 0.01331115 0.04658902 0.14642263 0.11148087

addmargins(C)

##      
##       Average Excellent Good Poor Very Bad Sum
##   No       90         9   39  105       48 291
##   Yes     119         8   28   88       67 310
##   Sum     209        17   67  193      115 601

library(ggplot2)
ggplot(dataset, aes(SS, fill = RL)) + geom_bar(position = 'dodge')

Rủi ro tương đối (relative risk).

library(DescTools)
library(epitools)
riskratio(C)

## $data
##        
##         Average Excellent Good Poor Very Bad Total
##   No         90         9   39  105       48   291
##   Yes       119         8   28   88       67   310
##   Total     209        17   67  193      115   601
## 
## $measure
##      risk ratio with 95% C.I.
##        estimate     lower    upper
##   No  1.0000000        NA       NA
##   Yes 0.6929134 0.2774118 1.730745
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact chi.square
##   No          NA           NA         NA
##   Yes  0.4430064   0.04074744 0.04154524
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

epitab(C, method = 'riskratio', rev = 'c')

## $tab
##      
##       Very Bad        p0 Poor        p1 riskratio     lower     upper
##   No        48 0.1649485  105 0.3608247 1.0000000        NA        NA
##   Yes       67 0.2161290   88 0.2838710 0.8272811 0.6950198 0.9847115
##      
##          p.value
##   No          NA
##   Yes 0.04074744
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Odd Ratio

oddsratio(C)

## $data
##        
##         Average Excellent Good Poor Very Bad Total
##   No         90         9   39  105       48   291
##   Yes       119         8   28   88       67   310
##   Total     209        17   67  193      115   601
## 
## $measure
##      odds ratio with 95% C.I.
##        estimate     lower    upper
##   No  1.0000000        NA       NA
##   Yes 0.6748591 0.2405958 1.858881
## 
## $p.value
##      two-sided
##       midp.exact fisher.exact chi.square
##   No          NA           NA         NA
##   Yes  0.4430064   0.04074744 0.04154524
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

epitab(C, method = 'oddsratio')

## $tab
##      
##       Average       p0 Excellent        p1 oddsratio     lower    upper
##   No       90 0.430622         9 0.5294118 1.0000000        NA       NA
##   Yes     119 0.569378         8 0.4705882 0.6722689 0.2495631 1.810947
##      
##          p.value
##   No          NA
##   Yes 0.04074744
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

4.2.4 Phân tích trải nghiệm khách hàng theo khách hàng để lại đánh giá sản phẩm

D <- table(dataset$`Review Helpfulness`,dataset$`Shopping Satisfaction`)
D

##            
##             Average Excellent Good Poor Very Bad
##   No             45         7   16   55       14
##   Sometimes     101         6   30   54       36
##   Yes            63         4   21   84       65

prop.table(D)

##            
##                 Average   Excellent        Good        Poor    Very Bad
##   No        0.074875208 0.011647255 0.026622296 0.091514143 0.023294509
##   Sometimes 0.168053245 0.009983361 0.049916805 0.089850250 0.059900166
##   Yes       0.104825291 0.006655574 0.034941764 0.139767055 0.108153078

addmargins(D)

##            
##             Average Excellent Good Poor Very Bad Sum
##   No             45         7   16   55       14 137
##   Sometimes     101         6   30   54       36 227
##   Yes            63         4   21   84       65 237
##   Sum           209        17   67  193      115 601

library(ggplot2)
ggplot(dataset, aes(SS, fill = RH)) + geom_bar(position = 'dodge')

Rủi ro tương đối (relative risk).

library(DescTools)
library(epitools)
riskratio(D)

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $data
##            
##             Average Excellent Good Poor Very Bad Total
##   No             45         7   16   55       14   137
##   Sometimes     101         6   30   54       36   227
##   Yes            63         4   21   84       65   237
##   Total         209        17   67  193      115   601
## 
## $measure
##            risk ratio with 95% C.I.
##              estimate     lower    upper
##   No        1.0000000        NA       NA
##   Sometimes 0.4165554 0.1474002 1.177193
##   Yes       0.4434968 0.1371172 1.434462
## 
## $p.value
##            two-sided
##             midp.exact fisher.exact  chi.square
##   No                NA           NA          NA
##   Sometimes  0.1109334  0.007012837 0.006931824
##   Yes        0.1832078  0.000652769 0.001223880
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "Unconditional MLE & normal approximation (Wald) CI"

epitab(D, method = 'riskratio', rev = 'c')

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $tab
##            
##             Very Bad        p0 Poor        p1 riskratio     lower     upper
##   No              14 0.1021898   55 0.4014599 1.0000000        NA        NA
##   Sometimes       36 0.1585903   54 0.2378855 0.7527273 0.6123113 0.9253436
##   Yes             65 0.2742616   84 0.3544304 0.7072605 0.5879719 0.8507506
##            
##                 p.value
##   No                 NA
##   Sometimes 0.007012837
##   Yes       0.000652769
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

Odd Ratio

oddsratio(D)

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $data
##            
##             Average Excellent Good Poor Very Bad Total
##   No             45         7   16   55       14   137
##   Sometimes     101         6   30   54       36   227
##   Yes            63         4   21   84       65   237
##   Total         209        17   67  193      115   601
## 
## $measure
##            odds ratio with 95% C.I.
##              estimate     lower    upper
##   No        1.0000000        NA       NA
##   Sometimes 0.3858197 0.1152194 1.250890
##   Yes       0.4174735 0.1001604 1.504952
## 
## $p.value
##            two-sided
##             midp.exact fisher.exact  chi.square
##   No                NA           NA          NA
##   Sometimes  0.1109334  0.007012837 0.006931824
##   Yes        0.1832078  0.000652769 0.001223880
## 
## $correction
## [1] FALSE
## 
## attr(,"method")
## [1] "median-unbiased estimate & mid-p exact CI"

epitab(D, method = 'oddsratio')

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## Warning in chisq.test(xx, correct = correction): Chi-squared approximation may
## be incorrect

## $tab
##            
##             Average        p0 Excellent        p1 oddsratio     lower    upper
##   No             45 0.2153110         7 0.4117647 1.0000000        NA       NA
##   Sometimes     101 0.4832536         6 0.3529412 0.3818953 0.1214541 1.200816
##   Yes            63 0.3014354         4 0.2352941 0.4081633 0.1127317 1.477821
##            
##                 p.value
##   No                 NA
##   Sometimes 0.007012837
##   Yes       0.000652769
## 
## $measure
## [1] "wald"
## 
## $conf.level
## [1] 0.95
## 
## $pvalue
## [1] "fisher.exact"

5 CHƯƠNG 4: THỐNG KÊ SUY DIỄN

5.1 Kiểm định tính độc lập cho 2 biến định tính

Kiểm định tính độc lập cho hai biến Shopping Satisfaction và Purchase Frequency

chisq.test(table(SS,PF))

## Warning in chisq.test(table(SS, PF)): Chi-squared approximation may be
## incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  table(SS, PF)
## X-squared = 14.356, df = 16, p-value = 0.5722

Với p_value > 5%, chấp nhận giả thuyết H0 do đó kết luận trải nghiệm khách hàng không liên quan đến tần suất mua hàng của khách hàng.

Kiểm định tính độc lập cho hai biến Shopping Satisfaction và Browsing Frequency

chisq.test(table(SS,BF))

## Warning in chisq.test(table(SS, BF)): Chi-squared approximation may be
## incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  table(SS, BF)
## X-squared = 51.363, df = 12, p-value = 8.036e-07

Với p_value < 5%, bác bỏ giả thuyết H0 do đó kết luận trải nghiệm khách hàng có liên quan đến khách hàng có thường dùng website hay không.

Kiểm định tính độc lập cho hai biến Shopping Satisfaction và Review Left

chisq.test(table(SS,RL))

## 
##  Pearson's Chi-squared test
## 
## data:  table(SS, RL)
## X-squared = 9.9345, df = 4, p-value = 0.04155

Với p_value < 5%, bác bỏ giả thuyết H0 do đó kết luận trải nghiệm khách hàng có liên quan đến khách hàng có để lại đánh giá sản phẩm trên website.

Kiểm định tính độc lập cho hai biến Shopping Satisfaction và Review Helpfulness

chisq.test(table(SS,RH))

## Warning in chisq.test(table(SS, RH)): Chi-squared approximation may be
## incorrect

## 
##  Pearson's Chi-squared test
## 
## data:  table(SS, RH)
## X-squared = 40.49, df = 8, p-value = 2.596e-06

Với p_value < 5%, bác bỏ giả thuyết H0 do đó kết luận trải nghiệm khách hàng có liên quan đến khách hàng có thấy hữu ích từ thông tin đánh giá sản phẩm hay không.

5.2 Khoảng ước lượng cho tỷ lệ

Đặt giả thuyết: Ước lượng tỷ lệ khách hàng mua nhiều hơn 3 sản phẩm là 30%

m<- dataset[dataset$Total > 3,]
prop.test(length(dataset$Total), length(dataset$Total), p = 0.3)

## 
##  1-sample proportions test with continuity correction
## 
## data:  length(dataset$Total) out of length(dataset$Total), null probability 0.3
## X-squared = 1399, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.3
## 95 percent confidence interval:
##  0.9920824 1.0000000
## sample estimates:
## p 
## 1

Với khoảng tin cậy 95% ước lượng tỷ lệ khách hàng mua nhiều hơn 3 sản phẩm là từ 0.9920824 đến 1.0000000

6 CHƯƠNG 5: MÔ HÌNH HỒI QUY

6.1 Mô hình hồi quy logit

mohinh1 <- glm(factor(SS) ~ Gender + PF + BF + RH + RHS + RL + CR, family = binomial(link = 'logit'), data = dataset)

summary(mohinh1)

## 
## Call:
## glm(formula = factor(SS) ~ Gender + PF + BF + RH + RHS + RL + 
##     CR, family = binomial(link = "logit"), data = dataset)
## 
## Coefficients:
##                          Estimate Std. Error z value Pr(>|z|)   
## (Intercept)               1.10740    0.35239   3.143  0.00167 **
## GenderMale                0.15042    0.19484   0.772  0.44010   
## PFLess than once a month  0.19561    0.28932   0.676  0.49898   
## PFMultiple times a week   0.32522    0.34424   0.945  0.34479   
## PFOnce a month            0.26408    0.26686   0.990  0.32238   
## PFOnce a week             0.10166    0.25332   0.401  0.68819   
## BFFew times a week        0.38249    0.20827   1.837  0.06628 . 
## BFMultiple times a day    0.67734    0.31578   2.145  0.03196 * 
## BFRarely                  0.71197    0.33124   2.149  0.03160 * 
## RHSometimes              -0.32161    0.25197  -1.276  0.20181   
## RHYes                     0.02251    0.27574   0.082  0.93492   
## RHSSometimes             -0.39115    0.22965  -1.703  0.08852 . 
## RHSYes                    0.53311    0.28620   1.863  0.06250 . 
## RLYes                    -0.29889    0.18787  -1.591  0.11162   
## CR                       -0.25246    0.08137  -3.103  0.00192 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 776.55  on 600  degrees of freedom
## Residual deviance: 719.24  on 586  degrees of freedom
## AIC: 749.24
## 
## Number of Fisher Scoring iterations: 4

6.2 Mô hình hồi quy probit

mohinh2 <- glm(factor(SS) ~ Gender + PF + BF + RH + RHS + RL + CR, family = binomial(link = 'probit'), data = dataset)

summary(mohinh2)

## 
## Call:
## glm(formula = factor(SS) ~ Gender + PF + BF + RH + RHS + RL + 
##     CR, family = binomial(link = "probit"), data = dataset)
## 
## Coefficients:
##                           Estimate Std. Error z value Pr(>|z|)   
## (Intercept)               0.685845   0.213435   3.213  0.00131 **
## GenderMale                0.095078   0.117177   0.811  0.41713   
## PFLess than once a month  0.112390   0.174293   0.645  0.51904   
## PFMultiple times a week   0.193886   0.206956   0.937  0.34884   
## PFOnce a month            0.152767   0.161266   0.947  0.34349   
## PFOnce a week             0.059868   0.154767   0.387  0.69889   
## BFFew times a week        0.230121   0.126871   1.814  0.06970 . 
## BFMultiple times a day    0.401472   0.187592   2.140  0.03234 * 
## BFRarely                  0.418506   0.196594   2.129  0.03327 * 
## RHSometimes              -0.205738   0.153635  -1.339  0.18053   
## RHYes                     0.001503   0.166556   0.009  0.99280   
## RHSSometimes             -0.234353   0.140017  -1.674  0.09418 . 
## RHSYes                    0.317306   0.169140   1.876  0.06066 . 
## RLYes                    -0.186082   0.113482  -1.640  0.10106   
## CR                       -0.152155   0.048848  -3.115  0.00184 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 776.55  on 600  degrees of freedom
## Residual deviance: 719.57  on 586  degrees of freedom
## AIC: 749.57
## 
## Number of Fisher Scoring iterations: 4

## Mô hình hồi quy cloglog

mohinh3 <- glm(factor(SS) ~ Gender + PF + BF + RH + RHS + RL + CR, family = binomial(link = 'cloglog'), data = dataset)

summary(mohinh3)

## 
## Call:
## glm(formula = factor(SS) ~ Gender + PF + BF + RH + RHS + RL + 
##     CR, family = binomial(link = "cloglog"), data = dataset)
## 
## Coefficients:
##                          Estimate Std. Error z value Pr(>|z|)   
## (Intercept)               0.36496    0.21367   1.708  0.08762 . 
## GenderMale                0.10544    0.11529   0.915  0.36042   
## PFLess than once a month  0.09821    0.17317   0.567  0.57065   
## PFMultiple times a week   0.18990    0.20400   0.931  0.35192   
## PFOnce a month            0.13230    0.16150   0.819  0.41268   
## PFOnce a week             0.05772    0.16065   0.359  0.71936   
## BFFew times a week        0.22024    0.13117   1.679  0.09314 . 
## BFMultiple times a day    0.37524    0.18150   2.067  0.03870 * 
## BFRarely                  0.38531    0.18840   2.045  0.04083 * 
## RHSometimes              -0.23369    0.15594  -1.499  0.13399   
## RHYes                    -0.03130    0.16432  -0.190  0.84895   
## RHSSometimes             -0.22309    0.14290  -1.561  0.11847   
## RHSYes                    0.30457    0.15984   1.906  0.05671 . 
## RLYes                    -0.19724    0.11353  -1.737  0.08233 . 
## CR                       -0.15186    0.04867  -3.121  0.00181 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 776.55  on 600  degrees of freedom
## Residual deviance: 720.83  on 586  degrees of freedom
## AIC: 750.83
## 
## Number of Fisher Scoring iterations: 6

6.3 Lựa chọn mô hình phù hợp

AIC và Deviance

Từ kết quả 3 mô hình hồi quy, ta có:

logit: AIC=749.24, Deviance= 719.24

probit: AIC=749.57, Deviance= 719.57

cloglog: AIC=750.83, Deviance= 720.83

BrierScore

BrierScore(mohinh1)

## [1] 0.2053738

BrierScore(mohinh2)

## [1] 0.2055529

BrierScore(mohinh3)

## [1] 0.2061816

Kết quả cho thấy giá trị các chỉ số AIC, Deviance, Brier score của mô hình cloglog là nhỏ nhất. Vậy mô hình cloglog là tốt nhất.

TIỂU LUẬN PTDLDT

NGUYỄN THÚY NGÂN

2023-08-01