data <- read.csv("F:/PTDLDT/Supermarket Transactions.csv", header = T)
dldt <- c("Gender", "MaritalStatus", "Homeowner","City","StateorProvince","Country","ProductFamily","ProductDepartment","ProductCategory")
dc <- data[, dldt]
head(dc)
## Gender MaritalStatus Homeowner City StateorProvince Country
## 1 F S Y Los Angeles CA USA
## 2 M M Y Los Angeles CA USA
## 3 F M N Bremerton WA USA
## 4 M M Y Portland OR USA
## 5 F S Y Beverly Hills CA USA
## 6 F M Y Beverly Hills CA USA
## ProductFamily ProductDepartment ProductCategory
## 1 Food Snack Foods Snack Foods
## 2 Food Produce Vegetables
## 3 Food Snack Foods Snack Foods
## 4 Food Snacks Candy
## 5 Drink Beverages Carbonated Beverages
## 6 Food Deli Side Dishes
Bảng tần số
tsgt <- table(data$Gender)
tsgt
##
## F M
## 7170 6889
Bảng tần suất
tsuat<- table(data$Gender)/sum(nrow(data))
tsuat
##
## F M
## 0.5099936 0.4900064
Biểu đồ
pie(tsuat,
labels = paste(names(tsuat), round(tsuat, 2)*100, "%"),
main = "Biểu đồ tròn: Tỷ lệ giới tính")
Nhận xét: Kết quả phân tích cho thấy, trong tổng số 14.059 giao dịch tại siêu thị, có 7.170 giao dịch được thực hiện bởi khách hàng nữ (F) và 6.889 giao dịch được thực hiện bởi khách hàng nam (M). Điều này cho thấy giao dịch từ khách hàng nữ chiếm tỷ lệ nhỉnh hơn so với khách hàng nam trong tập dữ liệu này. Cụ thể hơn, từ kết quả chạy ra và biểu đồ trực quan, ta thấy rằng khoảng 50.9993598% tổng số giao dịch đến từ khách hàng nữ, trong khi khách hàng nam chiếm khoảng 49.0006402%. Sự khác biệt này cho thấy nữ giới có xu hướng thực hiện giao dịch tại siêu thị nhiều hơn nam giới trong giai đoạn khảo sát.
Bảng tần số
tshn <- table(data$MaritalStatus)
tshn
##
## M S
## 6866 7193
Bảng tần suất
tsuat1<- tshn/sum(nrow(data))
tsuat1
##
## M S
## 0.4883704 0.5116296
Biểu đồ:
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
data %>%
ggplot(aes(x = MaritalStatus)) +
geom_bar(fill = "#CA6F1E") +
labs(title = "Phân bố tình trạng hôn nhân", x = "Tình trạng", y = "Số lượng") +
theme_minimal()
Nhận xét: Kết quả phân tích cho thấy, trong tổng số 14.059 giao dịch tại siêu thị, có 6.866 giao dịch được thực hiện bởi những khách hàng đã kết hôn, trong khi 7.193 giao dịch đến từ khách hàng chưa kết hôn. Như vậy, số lượng giao dịch từ nhóm khách hàng chưa kết hôn chiếm tỷ lệ cao hơn một chút so với nhóm đã kết hôn trong tập dữ liệu này.
Cụ thể hơn, từ kết quả chạy ra và biểu đồ trực quan, có thể thấy rằng khoảng 51.1629561% giao dịch đến từ khách hàng chưa kết hôn, trong khi khách hàng đã kết hôn chiếm khoảng 48.8370439%. Sự chênh lệch này cho thấy nhóm chưa kết hôn có xu hướng giao dịch tại siêu thị thường xuyên hơn trong giai đoạn khảo sát.
Bảng tần số
tssh <- table(data$Homeowner)
tssh
##
## N Y
## 5615 8444
Bảng tần suất
tsuat2<- table(data$Homeowner)/sum(nrow(data))
tsuat2
##
## N Y
## 0.3993883 0.6006117
Biểu đồ:
data %>%
ggplot(aes(x = Homeowner)) +
geom_bar(fill = "#F39C12") +
labs(title = "Phân bố theo thành phố", x = "Thành phố", y = "Số lượng") +
theme_minimal()
Nhận xét: Khoảng 60% khách hàng trong dữ liệu là người sở hữu nhà, cho thấy phần lớn khách hàng thuộc nhóm có nền tảng tài chính ổn định. Điều này có thể gợi ý rằng họ có xu hướng chi tiêu cao hơn hoặc sẵn sàng đầu tư vào các sản phẩm/dịch vụ có giá trị lớn hơn so với nhóm chưa sở hữu nhà. Đây là một yếu tố quan trọng để cân nhắc trong các chiến lược định giá và phân khúc thị trường.
Bảng tần số
tstp <- table(data$City)
tstp
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 383 143 811 834 452
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 75 845 926 654 194
## Orizaba Portland Salem San Andres San Diego
## 464 876 1386 621 866
## San Francisco Seattle Spokane Tacoma Vancouver
## 130 922 875 1257 633
## Victoria Walla Walla Yakima
## 176 160 376
Bảng tần suất
tsuat2<- table(data$City)/sum(nrow(data))
tsuat2
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 0.027242336 0.010171420 0.057685468 0.059321431 0.032150224
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 0.005334661 0.060103848 0.065865282 0.046518245 0.013798990
## Orizaba Portland Salem San Andres San Diego
## 0.033003770 0.062308841 0.098584537 0.044170994 0.061597553
## San Francisco Seattle Spokane Tacoma Vancouver
## 0.009246746 0.065580767 0.062237712 0.089408920 0.045024539
## Victoria Walla Walla Yakima
## 0.012518671 0.011380610 0.026744434
Biểu đồ:
data %>%
ggplot(aes(x = City)) +
geom_bar(fill = "#28B463") +
labs(title = "Biểu đồ tần số khách hàng ở các thành phố", x = "Sở hữu nhà", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Dữ liệu cho thấy Salem (9.86%), Tacoma (8.94%), Los Angeles (6.59%), Seattle (6.56%), và Portland (6.23%) là những thành phố có mật độ giao dịch cao nhất, cho thấy đây là các khu vực thị trường trọng điểm mà siêu thị nên ưu tiên đầu tư về quảng bá, phân phối và chăm sóc khách hàng.
Ngoài ra, các thành phố như Bremerton, Spokane, San Diego và Hidalgo cũng chiếm tỷ trọng khá lớn (trên 5%), đóng vai trò bổ trợ quan trọng trong chiến lược mở rộng thị trường.
Ngược lại, các thành phố như Guadalajara, Victoria, San Francisco chỉ chiếm tỷ lệ dưới 1.5%, nên có thể được xem là khu vực tiềm năng dài hạn hoặc dùng để thử nghiệm các chiến dịch nhỏ trước khi mở rộng quy mô.
Bảng tần số
tsb <- table(data$StateorProvince)
tsb
##
## BC CA DF Guerrero Jalisco OR Veracruz WA
## 809 2733 815 383 75 2262 464 4567
## Yucatan Zacatecas
## 654 1297
Bảng tần suất
tsuat3<- table(data$StateorProvince)/sum(nrow(data))
tsuat3
##
## BC CA DF Guerrero Jalisco OR
## 0.057543211 0.194395049 0.057969984 0.027242336 0.005334661 0.160893378
## Veracruz WA Yucatan Zacatecas
## 0.033003770 0.324845295 0.046518245 0.092254072
Biểu đồ:
data %>%
ggplot(aes(x = StateorProvince)) +
geom_bar(fill = "#5DADE2") +
labs(title = "Phân bố theo bang/tỉnh", x = "Bang/Tỉnh", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Ba bang Washington (WA - 32.48%), California (CA - 19.44%) và Oregon (OR - 16.09%) chiếm tổng cộng gần 70% số lượng khách hàng, khẳng định đây là khu vực trọng tâm trong chiến lược thị trường.
→ Các hoạt động như phân tích hành vi tiêu dùng, tối ưu hóa danh mục sản phẩm, và triển khai chiến dịch tiếp thị nên ưu tiên tập trung vào nhóm bang này để đạt hiệu quả cao nhất.
Bên cạnh đó, Zacatecas (9.23%) và DF (5.80%) cũng thể hiện là những thị trường đáng chú ý với quy mô trung bình, phù hợp cho việc mở rộng dịch vụ hoặc thử nghiệm chính sách mới. Các bang có tỷ trọng thấp hơn như Guerrero, Veracruz, Yucatan hay Jalisco có thể được xem là thị trường vệ tinh, tiềm năng để phát triển dài hạn hoặc triển khai các chiến dịch khu vực nhỏ, có chọn lọc.
Bảng tần số
tsqg <- table(data$Country)
tsqg
##
## Canada Mexico USA
## 809 3688 9562
Bảng tần suất
tsuat4<- table(data$Country)/sum(nrow(data))
tsuat4
##
## Canada Mexico USA
## 0.05754321 0.26232307 0.68013372
Biểu đồ:
data %>%
ggplot(aes(x = Country)) +
geom_bar(fill = "#E74C3C") +
labs(title = "Phân bố theo quốc gia", x = "Quốc gia", y = "Số lượng") +
theme_minimal()
Nhận xét: Hoa Kỳ (USA) chiếm tỷ lệ áp đảo với 68.0133722% số khách hàng, khẳng định đây là thị trường cốt lõi cần được ưu tiên đầu tư về hạ tầng, dịch vụ và chiến lược tiếp thị.
Mexico đứng thứ hai với 26.2323067%, là một thị trường tiềm năng với quy mô đủ lớn để triển khai chiến dịch bản địa hóa, như điều chỉnh ngôn ngữ, giá cả, ưu đãi và sản phẩm phù hợp văn hóa.
Canada tuy chỉ chiếm 5.7543211%, nhưng vẫn là một thị trường vệ tinh đáng chú ý, phù hợp để duy trì hiện diện thương hiệu và thử nghiệm sản phẩm/dịch vụ mới trước khi mở rộng sâu hơn.
→ Chiến lược phân khúc địa lý rõ ràng sẽ giúp doanh nghiệp tối ưu hóa nguồn lực và nâng cao hiệu quả tiếp cận từng thị trường.
Bảng tần số
tssp <- table(data$ProductFamily)
tssp
##
## Drink Food Non-Consumable
## 1250 10153 2656
Bảng tần suất
tsuat5<- table(data$ProductFamily)/sum(nrow(data))
tsuat5
##
## Drink Food Non-Consumable
## 0.08891102 0.72217085 0.18891813
Biểu đồ:
data %>%
ggplot(aes(x = ProductFamily)) +
geom_bar(fill = "#1F618D") +
labs(title = "Phân bố nhóm sản phẩm", x = "Nhóm sản phẩm", y = "Số lượng") +
theme_minimal()
Nhận xét: Nhóm sản phẩm Food chiếm tỷ trọng áp đảo với hơn 72% tổng số giao dịch, khẳng định đây là mảng kinh doanh cốt lõi của siêu thị và cần được ưu tiên trong chiến lược sản phẩm, trưng bày và khuyến mãi. Trong khi đó, các nhóm Non-Consumable (18.89%) và Drink (8.89%) tuy chiếm tỷ lệ thấp hơn nhưng vẫn thể hiện tiềm năng phát triển, đặc biệt thông qua các chiến dịch bán chéo hoặc kết hợp combo để tăng giá trị đơn hàng và mở rộng hành vi tiêu dùng của khách.
Bảng tần số
tspb <- table(data$ProductDepartment)
tspb
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 356 425 1072 680
## Breakfast Foods Canned Foods Canned Products Carousel
## 188 977 109 59
## Checkout Dairy Deli Eggs
## 82 903 699 198
## Frozen Foods Health and Hygiene Household Meat
## 1382 893 1420 89
## Periodicals Produce Seafood Snack Foods
## 202 1994 102 1600
## Snacks Starchy Foods
## 352 277
Bảng tần suất
tsuat6<- table(data$ProductDepartment)/sum(nrow(data))
tsuat6
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 0.025321858 0.030229746 0.076250089 0.048367594
## Breakfast Foods Canned Foods Canned Products Carousel
## 0.013372217 0.069492852 0.007753041 0.004196600
## Checkout Dairy Deli Eggs
## 0.005832563 0.064229319 0.049719041 0.014083505
## Frozen Foods Health and Hygiene Household Meat
## 0.098300021 0.063518031 0.101002916 0.006330464
## Periodicals Produce Seafood Snack Foods
## 0.014368020 0.141830856 0.007255139 0.113806103
## Snacks Starchy Foods
## 0.025037343 0.019702682
Biểu đồ:
data %>%
ggplot(aes(x = ProductDepartment)) +
geom_bar(fill = "#D35400") +
labs(title = "Phòng ban sản phẩm", x = "Phòng ban", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Rau quả (Produce), Snack Foods và Household là ba bộ phận sản phẩm chiếm tỷ trọng lớn nhất trong tổng doanh số, lần lượt đạt 14,18%, 11,38% và 10,10%. Điều này cho thấy sức mua mạnh mẽ và sự quan tâm lớn của khách hàng đối với những nhóm hàng này. Do vậy, việc tập trung đầu tư vào trưng bày bắt mắt, triển khai các chương trình khuyến mãi hấp dẫn và phát triển đa dạng sản phẩm trong các nhóm này sẽ là chiến lược then chốt giúp tăng trưởng doanh thu và củng cố vị thế cạnh tranh trên thị trường.
Bảng tần số
tsdm <- table(data$ProductCategory)
tsdm
##
## Baking Goods Bathroom Products Beer and Wine
## 484 365 356
## Bread Breakfast Foods Candles
## 425 417 45
## Candy Canned Anchovies Canned Clams
## 352 44 53
## Canned Oysters Canned Sardines Canned Shrimp
## 35 40 38
## Canned Soup Canned Tuna Carbonated Beverages
## 404 87 154
## Cleaning Supplies Cold Remedies Dairy
## 189 93 903
## Decongestants Drinks Eggs
## 85 135 198
## Electrical Frozen Desserts Frozen Entrees
## 355 323 118
## Fruit Hardware Hot Beverages
## 765 129 226
## Hygiene Jams and Jellies Kitchen Products
## 197 588 217
## Magazines Meat Miscellaneous
## 202 761 42
## Packaged Vegetables Pain Relievers Paper Products
## 48 192 345
## Pizza Plastic Products Pure Juice Beverages
## 194 141 165
## Seafood Side Dishes Snack Foods
## 102 153 1600
## Specialty Starchy Foods Vegetables
## 289 277 1728
Bảng tần suất
tsuat7<- table(data$ProductCategory)/sum(nrow(data))
tsuat7
##
## Baking Goods Bathroom Products Beer and Wine
## 0.034426346 0.025962017 0.025321858
## Bread Breakfast Foods Candles
## 0.030229746 0.029660716 0.003200797
## Candy Canned Anchovies Canned Clams
## 0.025037343 0.003129668 0.003769827
## Canned Oysters Canned Sardines Canned Shrimp
## 0.002489508 0.002845153 0.002702895
## Canned Soup Canned Tuna Carbonated Beverages
## 0.028736041 0.006188207 0.010953837
## Cleaning Supplies Cold Remedies Dairy
## 0.013443346 0.006614980 0.064229319
## Decongestants Drinks Eggs
## 0.006045949 0.009602390 0.014083505
## Electrical Frozen Desserts Frozen Entrees
## 0.025250729 0.022974607 0.008393200
## Fruit Hardware Hot Beverages
## 0.054413543 0.009175617 0.016075112
## Hygiene Jams and Jellies Kitchen Products
## 0.014012376 0.041823743 0.015434953
## Magazines Meat Miscellaneous
## 0.014368020 0.054129028 0.002987410
## Packaged Vegetables Pain Relievers Paper Products
## 0.003414183 0.013656732 0.024539441
## Pizza Plastic Products Pure Juice Beverages
## 0.013798990 0.010029163 0.011736254
## Seafood Side Dishes Snack Foods
## 0.007255139 0.010882709 0.113806103
## Specialty Starchy Foods Vegetables
## 0.020556227 0.019702682 0.122910591
Biểu đồ:
data %>%
ggplot(aes(x = ProductCategory)) +
geom_bar(fill = "#45B39D") +
labs(title = "Danh mục sản phẩm cụ thể", x = "Danh mục", y = "Số lượng") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 45, hjust = 1))
Nhận xét: Danh mục Vegetables và Snack Foods đứng đầu về số lượng giao dịch, lần lượt chiếm 12,29% và 11,38% tổng số. Điều này minh chứng cho sự ưu tiên rõ ràng của khách hàng đối với các sản phẩm thực phẩm tươi sống và đồ ăn nhanh tiện lợi trong thói quen mua sắm hàng ngày. Vì vậy, doanh nghiệp nên tiếp tục củng cố và phát triển mạnh mẽ hai nhóm hàng này thông qua việc nâng cao chất lượng, đa dạng hóa sản phẩm và xây dựng các chương trình khuyến mãi sáng tạo nhằm giữ vững lòng trung thành của khách hàng và tăng trưởng bền vững.