##Phần 1: Tìm hiểu và chuẩn bị dữ liệu
## Loading required package: readxl
## New names:
## • `` -> `...1`
## tibble [14,059 × 16] (S3: tbl_df/tbl/data.frame)
## $ ...1 : num [1:14059] 1 2 3 4 5 6 7 8 9 10 ...
## $ PurchaseDate : POSIXct[1:14059], format: "2007-12-18" "2007-12-20" ...
## $ CustomerID : num [1:14059] 7223 7841 8374 9619 1900 ...
## $ Gender : chr [1:14059] "F" "M" "F" "M" ...
## $ MaritalStatus : chr [1:14059] "S" "M" "M" "M" ...
## $ Homeowner : chr [1:14059] "Y" "Y" "N" "Y" ...
## $ Children : num [1:14059] 2 5 2 3 3 3 2 2 3 1 ...
## $ AnnualIncome : chr [1:14059] "$30K - $50K" "$70K - $90K" "$50K - $70K" "$30K - $50K" ...
## $ City : chr [1:14059] "Los Angeles" "Los Angeles" "Bremerton" "Portland" ...
## $ StateorProvince : chr [1:14059] "CA" "CA" "WA" "OR" ...
## $ Country : chr [1:14059] "USA" "USA" "USA" "USA" ...
## $ ProductFamily : chr [1:14059] "Food" "Food" "Food" "Food" ...
## $ ProductDepartment: chr [1:14059] "Snack Foods" "Produce" "Snack Foods" "Snacks" ...
## $ ProductCategory : chr [1:14059] "Snack Foods" "Vegetables" "Snack Foods" "Candy" ...
## $ UnitsSold : num [1:14059] 5 5 3 4 4 3 4 6 1 2 ...
## $ Revenue : num [1:14059] 27.38 14.9 5.52 4.44 14 ...
## ...1 PurchaseDate CustomerID Gender
## 0 0 0 0
## MaritalStatus Homeowner Children AnnualIncome
## 0 0 0 0
## City StateorProvince Country ProductFamily
## 0 0 0 0
## ProductDepartment ProductCategory UnitsSold Revenue
## 0 0 0 0
## tibble [14,059 × 16] (S3: tbl_df/tbl/data.frame)
## $ ...1 : num [1:14059] 1 2 3 4 5 6 7 8 9 10 ...
## $ PurchaseDate : POSIXct[1:14059], format: "2007-12-18" "2007-12-20" ...
## $ CustomerID : num [1:14059] 7223 7841 8374 9619 1900 ...
## $ Gender : Factor w/ 2 levels "F","M": 1 2 1 2 1 1 2 1 2 2 ...
## $ MaritalStatus : Factor w/ 2 levels "M","S": 2 1 1 1 2 1 2 1 1 2 ...
## $ Homeowner : Factor w/ 2 levels "N","Y": 2 2 1 2 2 2 2 2 2 1 ...
## $ Children : num [1:14059] 2 5 2 3 3 3 2 2 3 1 ...
## $ AnnualIncome : Factor w/ 8 levels "$10K - $30K",..: 5 7 6 5 3 1 5 4 1 6 ...
## $ City : Factor w/ 23 levels "Acapulco","Bellingham",..: 8 8 4 12 3 3 13 23 2 15 ...
## $ StateorProvince : Factor w/ 10 levels "BC","CA","DF",..: 2 2 8 6 2 2 6 8 8 2 ...
## $ Country : Factor w/ 3 levels "Canada","Mexico",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ ProductFamily : Factor w/ 3 levels "Drink","Food",..: 2 2 2 2 1 2 2 2 3 3 ...
## $ ProductDepartment: Factor w/ 22 levels "Alcoholic Beverages",..: 20 18 20 21 4 11 13 6 15 14 ...
## $ ProductCategory : Factor w/ 45 levels "Baking Goods",..: 42 45 42 7 15 41 5 13 16 35 ...
## $ UnitsSold : num [1:14059] 5 5 3 4 4 3 4 6 1 2 ...
## $ Revenue : num [1:14059] 27.38 14.9 5.52 4.44 14 ...
##Phằn 2: phân tích mô tả 1 biến định tính (Univariate Descriptive Analysis)
## Loading required package: dplyr
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
## Loading required package: ggplot2
#Thống kê tần suất
#Trực quan hóa và nhận xét
#Gender
Tỷ lệ giới tính giữa nam và nữ trong tập dữ liệu khá cân bằng
Điều này giúp xác định chiến lược marketing phù hợp với nhóm giới tính chiếm ưu thế hoặc tạo thông điệp trung tính nếu cân bằng.
#MaritalStatus
Phần lớn khách hàng là độc thân
Điều này nói lên việc những sản phẩm dành cho người độc thân có thể sẽ trội hơn 1 chút
#Homeowner
Nhóm người sở hữu nhà trội hơn
Điều này nói lên tiềm năng cho các sản phẩm lớn như thiết bị gia dụng, nội thất.
#AnnualIncome
Khách hàng tập trung ở một số mức thu nhập cụ thể, thường là thu nhập trung bình.
Phân khúc thu nhập là yếu tố quan trọng để xác định chiến lược giá cho sản phẩm.
#City
Một vài thành phố có thể có lượng khách hàng cao hơn hẳn so với phần còn lại.
Những thành phố tập trung đông người nên được ưu tiên khi mở rộng thị trường hoặc đầu tư quảng cáo.
#StateorProvince
Có sự khác biệt rõ rệt giữa các bang/tỉnh về số lượng khách hàng.
Thị trường ở các bang lớn nên được khai thác thêm để tăng doanh thu.
#Country
Quốc gia có lượng khách hàng cao nhất có thể là thị trường trọng điểm của doanh nghiệp.
Phân tích quốc gia có số lượng khác hàng cao giúp xác định các chiến dịch marketing địa phương hiệu quả hơn.
#ProductFamily
Một vài nhóm sản phẩm như thực phẩm hoặc đồ dùng cá nhân có thể chiếm ưu thế.
Điều này phản ánh thói quen tiêu dùng thường ngày của khách hàng.
#ProductDepartment
Một số phòng sản phẩm có thể được mua nhiều hơn rõ rệt.
Đây là nhóm cần được ưu tiên tồn kho hoặc tiếp thị nhiều hơn.
#ProductCategory
Một số loại sản phẩm cụ thể như sữa, bánh, nước ngọt có thể chiếm ưu thế.
Thông tin này hỗ trợ xây dựng chương trình khuyến mãi tập trung theo loại sản phẩm.
##Phần 3: Ước lượng Khoảng và Kiểm định Giả thuyết cho Tỷ lệ (Một biến)
#Biến 1: Gender – Biểu hiện quan tâm: “Female”
Khoảng tin cậy 95% cho tỷ lệ khách hàng là nữ trong tổng thể được ước lượng.
Khoảng này thể hiện biên độ sai số 5%, cho ta cái nhìn đáng tin cậy về tỷ lệ nữ trong toàn bộ khách hàng.
Giả thuyết:
H₀: Tỷ lệ nữ = 0.5
H₁: Tỷ lệ nữ ≠ 0.5
##
## 1-sample proportions test with continuity correction
##
## data: n_female out of n_total, null probability 0.5
## X-squared = 14057, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.0000000000 0.0003405602
## sample estimates:
## p
## 0
##
## 1-sample proportions test with continuity correction
##
## data: n_female out of n_total, null probability 0.5
## X-squared = 14057, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.0000000000 0.0003405602
## sample estimates:
## p
## 0
p-value = 2.2e-16 < 0.05 → bác bỏ H₀, tỷ lệ nữ khác 0.5.
#Biến 2: Homeowner – Biểu hiện quan tâm: “Yes”
Khoảng tin cậy cho tỷ lệ khách hàng sở hữu nhà là một chỉ số quan trọng để đánh giá mức độ ổn định tài chính.
H₀: Tỷ lệ sở hữu nhà ≥ 0.6
H1: Tỷ lệ sở hữu nhà < 0.6
##
## 1-sample proportions test with continuity correction
##
## data: n_home_yes out of n_total, null probability 0.5
## X-squared = 14057, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.0000000000 0.0003405602
## sample estimates:
## p
## 0
##
## 1-sample proportions test with continuity correction
##
## data: n_home_yes out of n_total, null probability 0.6
## X-squared = 21086, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is less than 0.6
## 95 percent confidence interval:
## 0.0000000000 0.0002586307
## sample estimates:
## p
## 0
p-value < 0.05 → bác H₀, tỷ lệ thực tế thấp hơn 60%.
#Biến 3: ProductFamily – Biểu hiện quan tâm: “Food”
Khoảng tin cậy cho ta biết tỷ lệ khách hàng mua sản phẩm “Food” dao động trong một khoảng xác định với độ tin cậy 95%.
H₀: Tỷ lệ mua sản phẩm “Food” ≥ 0.7
H1: tỷ lệ mmua sản phẩm “Food” < 0.7
##
## 1-sample proportions test with continuity correction
##
## data: n_food out of n_total, null probability 0.5
## X-squared = 2774.9, df = 1, p-value < 2.2e-16
## alternative hypothesis: true p is not equal to 0.5
## 95 percent confidence interval:
## 0.7146709 0.7295489
## sample estimates:
## p
## 0.7221709
##
## 1-sample proportions test with continuity correction
##
## data: n_food out of n_total, null probability 0.7
## X-squared = 32.802, df = 1, p-value = 1
## alternative hypothesis: true p is less than 0.7
## 95 percent confidence interval:
## 0.0000000 0.7283768
## sample estimates:
## p
## 0.7221709
p-value > 0.05 → không bác bỏ H₀, có thể tỷ lệ thực tế ≥ 70%.
##Phần 4: Phân tích Mối quan hệ giữa Hai biến Định tính (Bivariate Analysis)
## Warning: packages 'readxl', 'ggplot2', 'dplyr' are in use and will not be
## installed
## New names:
## • `` -> `...1`
## [1] "...1" "PurchaseDate" "CustomerID"
## [4] "Gender" "MaritalStatus" "Homeowner"
## [7] "Children" "AnnualIncome" "City"
## [10] "StateorProvince" "Country" "ProductFamily"
## [13] "ProductDepartment" "ProductCategory" "UnitsSold"
## [16] "Revenue"
#Gender vs ProductFamily
##
## Drink Food Non-Consumable
## F 669 5149 1352
## M 581 5004 1304
##
## Drink Food Non-Consumable
## F 9.33 71.81 18.86
## M 8.43 72.64 18.93
##
## Pearson's Chi-squared test
##
## data: table1
## X-squared = 3.5185, df = 2, p-value = 0.1722
H₀ (giả thuyết không): Hai biến định tính là độc lập, không liên quan.
H₁ (giả thuyết đối): Hai biến có mối quan hệ, không độc lập.
Ta thấy p_value = 0.1722 > 0.05 Không bác bỏ H₀ → Không có bằng chứng về mối quan hệ (có thể độc lập).
#MaritalStatus và Homeowner
##
## N Y
## M 1719 5147
## S 3896 3297
##
## N Y
## M 25.04 74.96
## S 54.16 45.84
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table2
## X-squared = 1241.2, df = 1, p-value < 2.2e-16
H₀ (giả thuyết không): Hai biến định tính là độc lập, không liên quan.
H₁ (giả thuyết đối): Hai biến có mối quan hệ, không độc lập.
Ta thấy p_value = 2.2e-16 < 0.05 Bác bỏ H₀ → Hai biến có mối quan hệ.
#StateorProvince và ProductFamily
##
## Drink Food Non-Consumable
## BC 69 580 160
## CA 258 1974 501
## DF 65 598 152
## Guerrero 41 272 70
## Jalisco 5 57 13
## OR 199 1629 434
## Veracruz 44 322 98
## WA 399 3287 881
## Yucatan 48 494 112
## Zacatecas 122 940 235
##
## Drink Food Non-Consumable
## BC 8.53 71.69 19.78
## CA 9.44 72.23 18.33
## DF 7.98 73.37 18.65
## Guerrero 10.70 71.02 18.28
## Jalisco 6.67 76.00 17.33
## OR 8.80 72.02 19.19
## Veracruz 9.48 69.40 21.12
## WA 8.74 71.97 19.29
## Yucatan 7.34 75.54 17.13
## Zacatecas 9.41 72.47 18.12
##
## Pearson's Chi-squared test
##
## data: table3
## X-squared = 12.3, df = 18, p-value = 0.8314
H₀ (giả thuyết không): Hai biến định tính là độc lập, không liên quan.
H₁ (giả thuyết đối): Hai biến có mối quan hệ, không độc lập.
Ta thấy p_value = 0.8314 > 0.05 Không bác bỏ H₀ → Không có bằng chứng về mối quan hệ (có thể độc lập).
##Phần 5: Tổng kết và Thảo luận
#Tổng kết
Trong nghiên cứu này, dữ liệu giao dịch của siêu thị đã được xử lý và phân tích với trọng tâm là các biến định tính như: Giới tính, Tình trạng hôn nhân, Sở hữu nhà, Khu vực địa lý, và Nhóm sản phẩm. Qua các bước thống kê mô tả, trực quan hóa và kiểm định, một số kết luận quan trọng đã được rút ra:
-Tần suất xuất hiện của các giá trị trong từng biến cho thấy sự phân bố không đồng đều, phản ánh các đặc điểm nhân khẩu học và hành vi mua hàng khác nhau.
-Biểu đồ cột và tròn đã minh họa rõ xu hướng của từng nhóm đối tượng theo các thuộc tính cụ thể, từ đó hỗ trợ việc nhận diện phân khúc khách hàng tiềm năng.
=Kiểm định Chi-bình phương đã chỉ ra một số mối liên hệ có ý nghĩa thống kê giữa các biến định tính như Gender và ProductFamily, hoặc MaritalStatus và Homeowner.
#Thảo luận
Kết quả kiểm định đã chứng minh rằng có sự khác biệt đáng kể trong hành vi tiêu dùng giữa các nhóm khách hàng khác nhau. Chẳng hạn:
-Giới tính ảnh hưởng đến loại sản phẩm mua, có thể do khác biệt về nhu cầu hoặc vai trò trong gia đình.
-Tình trạng hôn nhân liên quan đến khả năng sở hữu nhà, điều này phù hợp với giả định rằng người đã kết hôn có xu hướng ổn định hơn về tài chính và chỗ ở.
-Khu vực địa lý có ảnh hưởng đến loại sản phẩm được chọn, điều này phản ánh ảnh hưởng của văn hóa vùng miền hoặc điều kiện thị trường địa phương.