Đọc dữ liệu

data <- read.csv("F:/PTDLDT/Supermarket Transactions.csv", header = T)

Chọn các biến định tính và kiểm tra lại

dldt <- c("Gender", "MaritalStatus", "Homeowner","City","StateorProvince","Country","ProductFamily","ProductDepartment","ProductCategory")
dc <- data[, dldt]
head(dc)
##   Gender MaritalStatus Homeowner          City StateorProvince Country
## 1      F             S         Y   Los Angeles              CA     USA
## 2      M             M         Y   Los Angeles              CA     USA
## 3      F             M         N     Bremerton              WA     USA
## 4      M             M         Y      Portland              OR     USA
## 5      F             S         Y Beverly Hills              CA     USA
## 6      F             M         Y Beverly Hills              CA     USA
##   ProductFamily ProductDepartment      ProductCategory
## 1          Food       Snack Foods          Snack Foods
## 2          Food           Produce           Vegetables
## 3          Food       Snack Foods          Snack Foods
## 4          Food            Snacks                Candy
## 5         Drink         Beverages Carbonated Beverages
## 6          Food              Deli          Side Dishes

Thống kê mô tả

Biến Gender

Bảng tần số

tsgt <- table(data$Gender)
tsgt
## 
##    F    M 
## 7170 6889

Bảng tần suất

tsuat<- table(data$Gender)/sum(nrow(data))
tsuat
## 
##         F         M 
## 0.5099936 0.4900064

Biểu đồ

pie(tsuat,
    labels = paste(names(tsuat), round(tsuat, 2)*100, "%"),
    main = "Biểu đồ tròn: Tỷ lệ giới tính") 

Nhận xét: Kết quả phân tích cho thấy, trong tổng số 14.059 giao dịch tại siêu thị, có 7.170 giao dịch được thực hiện bởi khách hàng nữ (F) và 6.889 giao dịch được thực hiện bởi khách hàng nam (M). Điều này cho thấy giao dịch từ khách hàng nữ chiếm tỷ lệ nhỉnh hơn so với khách hàng nam trong tập dữ liệu này. Cụ thể hơn, từ kết quả chạy ra và biểu đồ trực quan, ta thấy rằng khoảng 50.9993598% tổng số giao dịch đến từ khách hàng nữ, trong khi khách hàng nam chiếm khoảng 49.0006402%. Sự khác biệt này cho thấy nữ giới có xu hướng thực hiện giao dịch tại siêu thị nhiều hơn nam giới trong giai đoạn khảo sát.


Biến MarialStatus

Bảng tần số

tshn <- table(data$MaritalStatus)
tshn
## 
##    M    S 
## 6866 7193

Bảng tần suất

tsuat1<- tshn/sum(nrow(data))
tsuat1
## 
##         M         S 
## 0.4883704 0.5116296

Biểu đồ:

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

data %>%
  ggplot(aes(x = MaritalStatus)) +
  geom_bar(fill = "#CA6F1E") +
  labs(title = "Phân bố tình trạng hôn nhân", x = "Tình trạng", y = "Số lượng") +
  theme_minimal()

Nhận xét: Kết quả phân tích cho thấy, trong tổng số 14.059 giao dịch tại siêu thị, có 6.866 giao dịch được thực hiện bởi những khách hàng đã kết hôn, trong khi 7.193 giao dịch đến từ khách hàng chưa kết hôn. Như vậy, số lượng giao dịch từ nhóm khách hàng chưa kết hôn chiếm tỷ lệ cao hơn một chút so với nhóm đã kết hôn trong tập dữ liệu này.

Cụ thể hơn, từ kết quả chạy ra và biểu đồ trực quan, có thể thấy rằng khoảng 51.1629561% giao dịch đến từ khách hàng chưa kết hôn, trong khi khách hàng đã kết hôn chiếm khoảng 48.8370439%. Sự chênh lệch này cho thấy nhóm chưa kết hôn có xu hướng giao dịch tại siêu thị thường xuyên hơn trong giai đoạn khảo sát.


Biến Homeowner (Sở hữu nhà)

Bảng tần số

tssh <- table(data$Homeowner)
tssh
## 
##    N    Y 
## 5615 8444

Bảng tần suất

tsuat2<- table(data$Homeowner)/sum(nrow(data))
tsuat2
## 
##         N         Y 
## 0.3993883 0.6006117

Biểu đồ:

data %>%
  ggplot(aes(x = Homeowner)) +
  geom_bar(fill = "#F39C12") +
  labs(title = "Phân bố theo thành phố", x = "Thành phố", y = "Số lượng") +
  theme_minimal()

Nhận xét: Khoảng 60% khách hàng trong dữ liệu là người sở hữu nhà, cho thấy phần lớn khách hàng thuộc nhóm có nền tảng tài chính ổn định. Điều này có thể gợi ý rằng họ có xu hướng chi tiêu cao hơn hoặc sẵn sàng đầu tư vào các sản phẩm/dịch vụ có giá trị lớn hơn so với nhóm chưa sở hữu nhà. Đây là một yếu tố quan trọng để cân nhắc trong các chiến lược định giá và phân khúc thị trường.


Biến Thành phố (City)

Bảng tần số

tstp <- table(data$City)
tstp
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##           383           143           811           834           452 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##            75           845           926           654           194 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##           464           876          1386           621           866 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##           130           922           875          1257           633 
##      Victoria   Walla Walla        Yakima 
##           176           160           376

Bảng tần suất

tsuat2<- table(data$City)/sum(nrow(data))
tsuat2
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##   0.027242336   0.010171420   0.057685468   0.059321431   0.032150224 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##   0.005334661   0.060103848   0.065865282   0.046518245   0.013798990 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##   0.033003770   0.062308841   0.098584537   0.044170994   0.061597553 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##   0.009246746   0.065580767   0.062237712   0.089408920   0.045024539 
##      Victoria   Walla Walla        Yakima 
##   0.012518671   0.011380610   0.026744434

Biểu đồ:

data %>%
  ggplot(aes(x = City)) +
  geom_bar(fill = "#28B463") +
  labs(title = "Biểu đồ tần số khách hàng ở các thành phố", x = "Sở hữu nhà", y = "Số lượng") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Dữ liệu cho thấy Salem (9.86%), Tacoma (8.94%), Los Angeles (6.59%), Seattle (6.56%), và Portland (6.23%) là những thành phố có mật độ giao dịch cao nhất, cho thấy đây là các khu vực thị trường trọng điểm mà siêu thị nên ưu tiên đầu tư về quảng bá, phân phối và chăm sóc khách hàng.

Ngoài ra, các thành phố như Bremerton, Spokane, San Diego và Hidalgo cũng chiếm tỷ trọng khá lớn (trên 5%), đóng vai trò bổ trợ quan trọng trong chiến lược mở rộng thị trường.

Ngược lại, các thành phố như Guadalajara, Victoria, San Francisco chỉ chiếm tỷ lệ dưới 1.5%, nên có thể được xem là khu vực tiềm năng dài hạn hoặc dùng để thử nghiệm các chiến dịch nhỏ trước khi mở rộng quy mô.


Biến Bang/Tỉnh (StateorProvince)

Bảng tần số

tsb <- table(data$StateorProvince)
tsb
## 
##        BC        CA        DF  Guerrero   Jalisco        OR  Veracruz        WA 
##       809      2733       815       383        75      2262       464      4567 
##   Yucatan Zacatecas 
##       654      1297

Bảng tần suất

tsuat3<- table(data$StateorProvince)/sum(nrow(data))
tsuat3
## 
##          BC          CA          DF    Guerrero     Jalisco          OR 
## 0.057543211 0.194395049 0.057969984 0.027242336 0.005334661 0.160893378 
##    Veracruz          WA     Yucatan   Zacatecas 
## 0.033003770 0.324845295 0.046518245 0.092254072

Biểu đồ:

data %>%
  ggplot(aes(x = StateorProvince)) +
  geom_bar(fill = "#5DADE2") +
  labs(title = "Phân bố theo bang/tỉnh", x = "Bang/Tỉnh", y = "Số lượng") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Ba bang Washington (WA - 32.48%), California (CA - 19.44%) và Oregon (OR - 16.09%) chiếm tổng cộng gần 70% số lượng khách hàng, khẳng định đây là khu vực trọng tâm trong chiến lược thị trường.

→ Các hoạt động như phân tích hành vi tiêu dùng, tối ưu hóa danh mục sản phẩm, và triển khai chiến dịch tiếp thị nên ưu tiên tập trung vào nhóm bang này để đạt hiệu quả cao nhất.

Bên cạnh đó, Zacatecas (9.23%) và DF (5.80%) cũng thể hiện là những thị trường đáng chú ý với quy mô trung bình, phù hợp cho việc mở rộng dịch vụ hoặc thử nghiệm chính sách mới. Các bang có tỷ trọng thấp hơn như Guerrero, Veracruz, Yucatan hay Jalisco có thể được xem là thị trường vệ tinh, tiềm năng để phát triển dài hạn hoặc triển khai các chiến dịch khu vực nhỏ, có chọn lọc.


Biến Quốc gia (Country)

Bảng tần số

tsqg <- table(data$Country)
tsqg
## 
## Canada Mexico    USA 
##    809   3688   9562

Bảng tần suất

tsuat4<- table(data$Country)/sum(nrow(data))
tsuat4
## 
##     Canada     Mexico        USA 
## 0.05754321 0.26232307 0.68013372

Biểu đồ:

data %>%
  ggplot(aes(x = Country)) +
  geom_bar(fill = "#E74C3C") +
  labs(title = "Phân bố theo quốc gia", x = "Quốc gia", y = "Số lượng") +
  theme_minimal()

Nhận xét: Hoa Kỳ (USA) chiếm tỷ lệ áp đảo với 68.0133722% số khách hàng, khẳng định đây là thị trường cốt lõi cần được ưu tiên đầu tư về hạ tầng, dịch vụ và chiến lược tiếp thị.

Mexico đứng thứ hai với 26.2323067%, là một thị trường tiềm năng với quy mô đủ lớn để triển khai chiến dịch bản địa hóa, như điều chỉnh ngôn ngữ, giá cả, ưu đãi và sản phẩm phù hợp văn hóa.

Canada tuy chỉ chiếm 5.7543211%, nhưng vẫn là một thị trường vệ tinh đáng chú ý, phù hợp để duy trì hiện diện thương hiệu và thử nghiệm sản phẩm/dịch vụ mới trước khi mở rộng sâu hơn.

→ Chiến lược phân khúc địa lý rõ ràng sẽ giúp doanh nghiệp tối ưu hóa nguồn lực và nâng cao hiệu quả tiếp cận từng thị trường.


Biến Nhóm sản phẩm (ProductFamily)

Bảng tần số

tssp <- table(data$ProductFamily)
tssp
## 
##          Drink           Food Non-Consumable 
##           1250          10153           2656

Bảng tần suất

tsuat5<- table(data$ProductFamily)/sum(nrow(data))
tsuat5
## 
##          Drink           Food Non-Consumable 
##     0.08891102     0.72217085     0.18891813

Biểu đồ:

data %>%
  ggplot(aes(x = ProductFamily)) +
  geom_bar(fill = "#1F618D") +
  labs(title = "Phân bố nhóm sản phẩm", x = "Nhóm sản phẩm", y = "Số lượng") +
  theme_minimal()

Nhận xét: Nhóm sản phẩm Food chiếm tỷ trọng áp đảo với hơn 72% tổng số giao dịch, khẳng định đây là mảng kinh doanh cốt lõi của siêu thị và cần được ưu tiên trong chiến lược sản phẩm, trưng bày và khuyến mãi. Trong khi đó, các nhóm Non-Consumable (18.89%) và Drink (8.89%) tuy chiếm tỷ lệ thấp hơn nhưng vẫn thể hiện tiềm năng phát triển, đặc biệt thông qua các chiến dịch bán chéo hoặc kết hợp combo để tăng giá trị đơn hàng và mở rộng hành vi tiêu dùng của khách.


Biến Phòng ban sản phẩm (ProductDepartment)

Bảng tần số

tspb <- table(data$ProductDepartment)
tspb
## 
## Alcoholic Beverages         Baked Goods        Baking Goods           Beverages 
##                 356                 425                1072                 680 
##     Breakfast Foods        Canned Foods     Canned Products            Carousel 
##                 188                 977                 109                  59 
##            Checkout               Dairy                Deli                Eggs 
##                  82                 903                 699                 198 
##        Frozen Foods  Health and Hygiene           Household                Meat 
##                1382                 893                1420                  89 
##         Periodicals             Produce             Seafood         Snack Foods 
##                 202                1994                 102                1600 
##              Snacks       Starchy Foods 
##                 352                 277

Bảng tần suất

tsuat6<- table(data$ProductDepartment)/sum(nrow(data))
tsuat6
## 
## Alcoholic Beverages         Baked Goods        Baking Goods           Beverages 
##         0.025321858         0.030229746         0.076250089         0.048367594 
##     Breakfast Foods        Canned Foods     Canned Products            Carousel 
##         0.013372217         0.069492852         0.007753041         0.004196600 
##            Checkout               Dairy                Deli                Eggs 
##         0.005832563         0.064229319         0.049719041         0.014083505 
##        Frozen Foods  Health and Hygiene           Household                Meat 
##         0.098300021         0.063518031         0.101002916         0.006330464 
##         Periodicals             Produce             Seafood         Snack Foods 
##         0.014368020         0.141830856         0.007255139         0.113806103 
##              Snacks       Starchy Foods 
##         0.025037343         0.019702682

Biểu đồ:

data %>%
  ggplot(aes(x = ProductDepartment)) +
  geom_bar(fill = "#D35400") +
  labs(title = "Phòng ban sản phẩm", x = "Phòng ban", y = "Số lượng") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Rau quả (Produce), Snack Foods và Household là ba bộ phận sản phẩm chiếm tỷ trọng lớn nhất trong tổng doanh số, lần lượt đạt 14,18%, 11,38% và 10,10%. Điều này cho thấy sức mua mạnh mẽ và sự quan tâm lớn của khách hàng đối với những nhóm hàng này. Do vậy, việc tập trung đầu tư vào trưng bày bắt mắt, triển khai các chương trình khuyến mãi hấp dẫn và phát triển đa dạng sản phẩm trong các nhóm này sẽ là chiến lược then chốt giúp tăng trưởng doanh thu và củng cố vị thế cạnh tranh trên thị trường.


Biến Danh mục sản phẩm (ProductCategory)

Bảng tần số

tsdm <- table(data$ProductCategory)
tsdm
## 
##         Baking Goods    Bathroom Products        Beer and Wine 
##                  484                  365                  356 
##                Bread      Breakfast Foods              Candles 
##                  425                  417                   45 
##                Candy     Canned Anchovies         Canned Clams 
##                  352                   44                   53 
##       Canned Oysters      Canned Sardines        Canned Shrimp 
##                   35                   40                   38 
##          Canned Soup          Canned Tuna Carbonated Beverages 
##                  404                   87                  154 
##    Cleaning Supplies        Cold Remedies                Dairy 
##                  189                   93                  903 
##        Decongestants               Drinks                 Eggs 
##                   85                  135                  198 
##           Electrical      Frozen Desserts       Frozen Entrees 
##                  355                  323                  118 
##                Fruit             Hardware        Hot Beverages 
##                  765                  129                  226 
##              Hygiene     Jams and Jellies     Kitchen Products 
##                  197                  588                  217 
##            Magazines                 Meat        Miscellaneous 
##                  202                  761                   42 
##  Packaged Vegetables       Pain Relievers       Paper Products 
##                   48                  192                  345 
##                Pizza     Plastic Products Pure Juice Beverages 
##                  194                  141                  165 
##              Seafood          Side Dishes          Snack Foods 
##                  102                  153                 1600 
##            Specialty        Starchy Foods           Vegetables 
##                  289                  277                 1728

Bảng tần suất

tsuat7<- table(data$ProductCategory)/sum(nrow(data))
tsuat7
## 
##         Baking Goods    Bathroom Products        Beer and Wine 
##          0.034426346          0.025962017          0.025321858 
##                Bread      Breakfast Foods              Candles 
##          0.030229746          0.029660716          0.003200797 
##                Candy     Canned Anchovies         Canned Clams 
##          0.025037343          0.003129668          0.003769827 
##       Canned Oysters      Canned Sardines        Canned Shrimp 
##          0.002489508          0.002845153          0.002702895 
##          Canned Soup          Canned Tuna Carbonated Beverages 
##          0.028736041          0.006188207          0.010953837 
##    Cleaning Supplies        Cold Remedies                Dairy 
##          0.013443346          0.006614980          0.064229319 
##        Decongestants               Drinks                 Eggs 
##          0.006045949          0.009602390          0.014083505 
##           Electrical      Frozen Desserts       Frozen Entrees 
##          0.025250729          0.022974607          0.008393200 
##                Fruit             Hardware        Hot Beverages 
##          0.054413543          0.009175617          0.016075112 
##              Hygiene     Jams and Jellies     Kitchen Products 
##          0.014012376          0.041823743          0.015434953 
##            Magazines                 Meat        Miscellaneous 
##          0.014368020          0.054129028          0.002987410 
##  Packaged Vegetables       Pain Relievers       Paper Products 
##          0.003414183          0.013656732          0.024539441 
##                Pizza     Plastic Products Pure Juice Beverages 
##          0.013798990          0.010029163          0.011736254 
##              Seafood          Side Dishes          Snack Foods 
##          0.007255139          0.010882709          0.113806103 
##            Specialty        Starchy Foods           Vegetables 
##          0.020556227          0.019702682          0.122910591

Biểu đồ:

data %>%
  ggplot(aes(x = ProductCategory)) +
  geom_bar(fill = "#45B39D") +
  labs(title = "Danh mục sản phẩm cụ thể", x = "Danh mục", y = "Số lượng") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

Nhận xét: Danh mục Vegetables và Snack Foods đứng đầu về số lượng giao dịch, lần lượt chiếm 12,29% và 11,38% tổng số. Điều này minh chứng cho sự ưu tiên rõ ràng của khách hàng đối với các sản phẩm thực phẩm tươi sống và đồ ăn nhanh tiện lợi trong thói quen mua sắm hàng ngày. Vì vậy, doanh nghiệp nên tiếp tục củng cố và phát triển mạnh mẽ hai nhóm hàng này thông qua việc nâng cao chất lượng, đa dạng hóa sản phẩm và xây dựng các chương trình khuyến mãi sáng tạo nhằm giữ vững lòng trung thành của khách hàng và tăng trưởng bền vững.