Đọc dữ liệu

d<-read.csv("C:/Users/PC/Downloads/Supermarket Transactions.csv", header= T)
str(data)
## function (..., list = character(), package = NULL, lib.loc = NULL, verbose = getOption("verbose"), 
##     envir = .GlobalEnv, overwrite = TRUE)

##chọn biến định tính và kiểm tra lại

caty <- c("MaritalStatus", "City", "StateorProvince", 
              "Country", "ProductFamily", "ProductDepartment", 
                "ProductCategory" , "Gender", "Homeowner")
dc <-d[,caty]
head(dc)
##   MaritalStatus          City StateorProvince Country ProductFamily
## 1             S   Los Angeles              CA     USA          Food
## 2             M   Los Angeles              CA     USA          Food
## 3             M     Bremerton              WA     USA          Food
## 4             M      Portland              OR     USA          Food
## 5             S Beverly Hills              CA     USA         Drink
## 6             M Beverly Hills              CA     USA          Food
##   ProductDepartment      ProductCategory Gender Homeowner
## 1       Snack Foods          Snack Foods      F         Y
## 2           Produce           Vegetables      M         Y
## 3       Snack Foods          Snack Foods      F         N
## 4            Snacks                Candy      M         Y
## 5         Beverages Carbonated Beverages      F         Y
## 6              Deli          Side Dishes      F         Y
table(d$MaritalStatus)/sum(nrow(d))
## 
##         M         S 
## 0.4883704 0.5116296

Vậy trong data này có 48.8370439% đã kết hôn và 51.1629561% chưa kết hôn

table(d$City)/sum(nrow(d))
## 
##      Acapulco    Bellingham Beverly Hills     Bremerton       Camacho 
##   0.027242336   0.010171420   0.057685468   0.059321431   0.032150224 
##   Guadalajara       Hidalgo   Los Angeles        Merida   Mexico City 
##   0.005334661   0.060103848   0.065865282   0.046518245   0.013798990 
##       Orizaba      Portland         Salem    San Andres     San Diego 
##   0.033003770   0.062308841   0.098584537   0.044170994   0.061597553 
## San Francisco       Seattle       Spokane        Tacoma     Vancouver 
##   0.009246746   0.065580767   0.062237712   0.089408920   0.045024539 
##      Victoria   Walla Walla        Yakima 
##   0.012518671   0.011380610   0.026744434
table(d$StateorProvince)/sum(nrow(d))
## 
##          BC          CA          DF    Guerrero     Jalisco          OR 
## 0.057543211 0.194395049 0.057969984 0.027242336 0.005334661 0.160893378 
##    Veracruz          WA     Yucatan   Zacatecas 
## 0.033003770 0.324845295 0.046518245 0.092254072

Phần lớn giao dịch diễn ra tại Washington (32.48%), tiếp theo là California (19.44%) và Oregon (16.09%). Các bang như Jalisco (0.53%) và Guerrero (2.72%) chiếm tỷ lệ rất nhỏ, cho thấy hoạt động mua bán tập trung chủ yếu ở một số khu vực nhất định.

table(d$Country)/sum(nrow(d))
## 
##     Canada     Mexico        USA 
## 0.05754321 0.26232307 0.68013372

Phần lớn giao dịch diễn ra tại Hoa Kỳ (68.01%), tiếp theo là Mexico (26.23%). Canada chỉ chiếm 5.75%, cho thấy hoạt động bán hàng tập trung chủ yếu ở thị trường Mỹ, còn Canada chỉ đóng vai trò rất nhỏ trong dữ liệu này.

table(d$ProductFamily)/sum(nrow(d))
## 
##          Drink           Food Non-Consumable 
##     0.08891102     0.72217085     0.18891813

Phần lớn sản phẩm được bán là thực phẩm (72.22%), tiếp theo là hàng phi tiêu dùng (18.89%) và đồ uống (8.89%). Điều này cho thấy thực phẩm là nhóm hàng chủ lực trong hoạt động bán lẻ của siêu thị

table(d$ProductDepartment)/sum(nrow(d))
## 
## Alcoholic Beverages         Baked Goods        Baking Goods           Beverages 
##         0.025321858         0.030229746         0.076250089         0.048367594 
##     Breakfast Foods        Canned Foods     Canned Products            Carousel 
##         0.013372217         0.069492852         0.007753041         0.004196600 
##            Checkout               Dairy                Deli                Eggs 
##         0.005832563         0.064229319         0.049719041         0.014083505 
##        Frozen Foods  Health and Hygiene           Household                Meat 
##         0.098300021         0.063518031         0.101002916         0.006330464 
##         Periodicals             Produce             Seafood         Snack Foods 
##         0.014368020         0.141830856         0.007255139         0.113806103 
##              Snacks       Starchy Foods 
##         0.025037343         0.019702682

Nhóm hàng chiếm tỷ trọng lớn nhất trong tập dữ liệu là Produce (Rau quả tươi), chiếm 14.18% tổng số giao dịch. Tiếp theo là Snack Foods (11.38%), Household (10.1%), và Frozen Foods (9.83%).

Ngoài ra, một số nhóm sản phẩm như Canned Foods, Dairy, Health and Hygiene, và Deli cũng chiếm tỷ lệ đáng kể, dao động từ khoảng 4–7%.

Ngược lại, các nhóm có tỷ trọng thấp bao gồm Carousel (0.42%), Checkout (0.58%) và Meat (0.63%), cho thấy đây không phải là các mặt hàng trọng điểm trong cơ cấu doanh thu của siêu thị.

Kết luận, siêu thị tập trung chủ yếu vào nhóm thực phẩm tươi sống, đông lạnh và hàng tiêu dùng thiết yếu, phù hợp với hành vi mua sắm phổ biến của người tiêu dùng.

table(d$ProductCategory)/sum(nrow(d))
## 
##         Baking Goods    Bathroom Products        Beer and Wine 
##          0.034426346          0.025962017          0.025321858 
##                Bread      Breakfast Foods              Candles 
##          0.030229746          0.029660716          0.003200797 
##                Candy     Canned Anchovies         Canned Clams 
##          0.025037343          0.003129668          0.003769827 
##       Canned Oysters      Canned Sardines        Canned Shrimp 
##          0.002489508          0.002845153          0.002702895 
##          Canned Soup          Canned Tuna Carbonated Beverages 
##          0.028736041          0.006188207          0.010953837 
##    Cleaning Supplies        Cold Remedies                Dairy 
##          0.013443346          0.006614980          0.064229319 
##        Decongestants               Drinks                 Eggs 
##          0.006045949          0.009602390          0.014083505 
##           Electrical      Frozen Desserts       Frozen Entrees 
##          0.025250729          0.022974607          0.008393200 
##                Fruit             Hardware        Hot Beverages 
##          0.054413543          0.009175617          0.016075112 
##              Hygiene     Jams and Jellies     Kitchen Products 
##          0.014012376          0.041823743          0.015434953 
##            Magazines                 Meat        Miscellaneous 
##          0.014368020          0.054129028          0.002987410 
##  Packaged Vegetables       Pain Relievers       Paper Products 
##          0.003414183          0.013656732          0.024539441 
##                Pizza     Plastic Products Pure Juice Beverages 
##          0.013798990          0.010029163          0.011736254 
##              Seafood          Side Dishes          Snack Foods 
##          0.007255139          0.010882709          0.113806103 
##            Specialty        Starchy Foods           Vegetables 
##          0.020556227          0.019702682          0.122910591

Trong tập dữ liệu này, nhóm sản phẩm được bán nhiều nhất là Vegetables (chiếm 12.29%), tiếp theo là Snack Foods (11.38%) và Dairy (6.42%). Các nhóm FruitMeat cũng có tỷ trọng đáng kể, lần lượt là 5.44% và 5.41%.

Ngược lại, một số nhóm như Candles (0.32%), Canned Oysters (0.25%) và Miscellaneous (0.3%) chiếm tỷ lệ rất nhỏ, cho thấy mức độ tiêu thụ thấp hoặc ít phổ biến.

Do đó, siêu thị chủ yếu tập trung bán các mặt hàng thực phẩm tươi sống và tiện lợi – phản ánh rõ hành vi tiêu dùng hằng ngày của khách hàng.

table(d$Gender)/sum(nrow(d))
## 
##         F         M 
## 0.5099936 0.4900064

Vậy trong data này có 50.9993598% nữ và 49.0006402% nam

table(d$Homeowner)/sum(nrow(d))

Vậy trong data này có 39.9388292% đã có nhà và 60.0611708% không có nhà