d<-read.csv("C:/Users/PC/Downloads/Supermarket Transactions.csv", header= T)
str(data)
## function (..., list = character(), package = NULL, lib.loc = NULL, verbose = getOption("verbose"),
## envir = .GlobalEnv, overwrite = TRUE)
##chọn biến định tính và kiểm tra lại
caty <- c("MaritalStatus", "City", "StateorProvince",
"Country", "ProductFamily", "ProductDepartment",
"ProductCategory" , "Gender", "Homeowner")
dc <-d[,caty]
head(dc)
## MaritalStatus City StateorProvince Country ProductFamily
## 1 S Los Angeles CA USA Food
## 2 M Los Angeles CA USA Food
## 3 M Bremerton WA USA Food
## 4 M Portland OR USA Food
## 5 S Beverly Hills CA USA Drink
## 6 M Beverly Hills CA USA Food
## ProductDepartment ProductCategory Gender Homeowner
## 1 Snack Foods Snack Foods F Y
## 2 Produce Vegetables M Y
## 3 Snack Foods Snack Foods F N
## 4 Snacks Candy M Y
## 5 Beverages Carbonated Beverages F Y
## 6 Deli Side Dishes F Y
table(d$MaritalStatus)/sum(nrow(d))
##
## M S
## 0.4883704 0.5116296
Vậy trong data này có 48.8370439% đã kết hôn và 51.1629561% chưa kết hôn
table(d$City)/sum(nrow(d))
##
## Acapulco Bellingham Beverly Hills Bremerton Camacho
## 0.027242336 0.010171420 0.057685468 0.059321431 0.032150224
## Guadalajara Hidalgo Los Angeles Merida Mexico City
## 0.005334661 0.060103848 0.065865282 0.046518245 0.013798990
## Orizaba Portland Salem San Andres San Diego
## 0.033003770 0.062308841 0.098584537 0.044170994 0.061597553
## San Francisco Seattle Spokane Tacoma Vancouver
## 0.009246746 0.065580767 0.062237712 0.089408920 0.045024539
## Victoria Walla Walla Yakima
## 0.012518671 0.011380610 0.026744434
table(d$StateorProvince)/sum(nrow(d))
##
## BC CA DF Guerrero Jalisco OR
## 0.057543211 0.194395049 0.057969984 0.027242336 0.005334661 0.160893378
## Veracruz WA Yucatan Zacatecas
## 0.033003770 0.324845295 0.046518245 0.092254072
Phần lớn giao dịch diễn ra tại Washington (32.48%), tiếp theo là California (19.44%) và Oregon (16.09%). Các bang như Jalisco (0.53%) và Guerrero (2.72%) chiếm tỷ lệ rất nhỏ, cho thấy hoạt động mua bán tập trung chủ yếu ở một số khu vực nhất định.
table(d$Country)/sum(nrow(d))
##
## Canada Mexico USA
## 0.05754321 0.26232307 0.68013372
Phần lớn giao dịch diễn ra tại Hoa Kỳ (68.01%), tiếp theo là Mexico (26.23%). Canada chỉ chiếm 5.75%, cho thấy hoạt động bán hàng tập trung chủ yếu ở thị trường Mỹ, còn Canada chỉ đóng vai trò rất nhỏ trong dữ liệu này.
table(d$ProductFamily)/sum(nrow(d))
##
## Drink Food Non-Consumable
## 0.08891102 0.72217085 0.18891813
Phần lớn sản phẩm được bán là thực phẩm (72.22%), tiếp theo là hàng phi tiêu dùng (18.89%) và đồ uống (8.89%). Điều này cho thấy thực phẩm là nhóm hàng chủ lực trong hoạt động bán lẻ của siêu thị
table(d$ProductDepartment)/sum(nrow(d))
##
## Alcoholic Beverages Baked Goods Baking Goods Beverages
## 0.025321858 0.030229746 0.076250089 0.048367594
## Breakfast Foods Canned Foods Canned Products Carousel
## 0.013372217 0.069492852 0.007753041 0.004196600
## Checkout Dairy Deli Eggs
## 0.005832563 0.064229319 0.049719041 0.014083505
## Frozen Foods Health and Hygiene Household Meat
## 0.098300021 0.063518031 0.101002916 0.006330464
## Periodicals Produce Seafood Snack Foods
## 0.014368020 0.141830856 0.007255139 0.113806103
## Snacks Starchy Foods
## 0.025037343 0.019702682
Nhóm hàng chiếm tỷ trọng lớn nhất trong tập dữ liệu là Produce (Rau quả tươi), chiếm 14.18% tổng số giao dịch. Tiếp theo là Snack Foods (11.38%), Household (10.1%), và Frozen Foods (9.83%).
Ngoài ra, một số nhóm sản phẩm như Canned Foods, Dairy, Health and Hygiene, và Deli cũng chiếm tỷ lệ đáng kể, dao động từ khoảng 4–7%.
Ngược lại, các nhóm có tỷ trọng thấp bao gồm Carousel (0.42%), Checkout (0.58%) và Meat (0.63%), cho thấy đây không phải là các mặt hàng trọng điểm trong cơ cấu doanh thu của siêu thị.
Kết luận, siêu thị tập trung chủ yếu vào nhóm thực phẩm tươi sống, đông lạnh và hàng tiêu dùng thiết yếu, phù hợp với hành vi mua sắm phổ biến của người tiêu dùng.
table(d$ProductCategory)/sum(nrow(d))
##
## Baking Goods Bathroom Products Beer and Wine
## 0.034426346 0.025962017 0.025321858
## Bread Breakfast Foods Candles
## 0.030229746 0.029660716 0.003200797
## Candy Canned Anchovies Canned Clams
## 0.025037343 0.003129668 0.003769827
## Canned Oysters Canned Sardines Canned Shrimp
## 0.002489508 0.002845153 0.002702895
## Canned Soup Canned Tuna Carbonated Beverages
## 0.028736041 0.006188207 0.010953837
## Cleaning Supplies Cold Remedies Dairy
## 0.013443346 0.006614980 0.064229319
## Decongestants Drinks Eggs
## 0.006045949 0.009602390 0.014083505
## Electrical Frozen Desserts Frozen Entrees
## 0.025250729 0.022974607 0.008393200
## Fruit Hardware Hot Beverages
## 0.054413543 0.009175617 0.016075112
## Hygiene Jams and Jellies Kitchen Products
## 0.014012376 0.041823743 0.015434953
## Magazines Meat Miscellaneous
## 0.014368020 0.054129028 0.002987410
## Packaged Vegetables Pain Relievers Paper Products
## 0.003414183 0.013656732 0.024539441
## Pizza Plastic Products Pure Juice Beverages
## 0.013798990 0.010029163 0.011736254
## Seafood Side Dishes Snack Foods
## 0.007255139 0.010882709 0.113806103
## Specialty Starchy Foods Vegetables
## 0.020556227 0.019702682 0.122910591
Trong tập dữ liệu này, nhóm sản phẩm được bán nhiều nhất là Vegetables (chiếm 12.29%), tiếp theo là Snack Foods (11.38%) và Dairy (6.42%). Các nhóm Fruit và Meat cũng có tỷ trọng đáng kể, lần lượt là 5.44% và 5.41%.
Ngược lại, một số nhóm như Candles (0.32%), Canned Oysters (0.25%) và Miscellaneous (0.3%) chiếm tỷ lệ rất nhỏ, cho thấy mức độ tiêu thụ thấp hoặc ít phổ biến.
Do đó, siêu thị chủ yếu tập trung bán các mặt hàng thực phẩm tươi sống và tiện lợi – phản ánh rõ hành vi tiêu dùng hằng ngày của khách hàng.
table(d$Gender)/sum(nrow(d))
##
## F M
## 0.5099936 0.4900064
Vậy trong data này có 50.9993598% nữ và 49.0006402% nam
table(d$Homeowner)/sum(nrow(d))
Vậy trong data này có 39.9388292% đã có nhà và 60.0611708% không có nhà