Bộ dữ liệu “Bike Sales 100K” được nhóm tác giả thu thập từ nền tảng Kaggle. Đây là bộ dữ liệu mô phỏng hoạt động kinh doanh trong lĩnh vực bán lẻ xe đạp, được thiết kế nhằm phục vụ cho mục đích học tập, nghiên cứu và thực hành phân tích dữ liệu.
Dữ liệu bao gồm khoảng 100.000 quan sát và 11 biến, mỗi quan sát tương ứng với một giao dịch mua xe đạp của khách hàng. Các biến có thể được phân loại thành biến định tính và biến định lượng nhằm phục vụ cho các phân tích thống kê và mô hình hóa. Các biến định tính mô tả các đặc điểm phân loại và chất lượng của khách hàng, sản phẩm và giao dịch, bao gồm: Customer_ID và Salesperson_ID, Bike_Model, Store_Location, Payment_Method và Customer_Gender. Những biến này cho phép phân tích phân phối, nhóm khách hàng, đánh giá hiệu suất nhân viên và các đặc trưng sản phẩm. Các biến định lượng thể hiện các thông số số học, đo lường giá trị và khối lượng giao dịch, bao gồm: Sale_ID, Price, Quantity và Customer_Age. Biến Date mặc dù được lưu dưới dạng ngày tháng, cũng có thể được chuyển đổi thành dạng định lượng để phân tích theo thời gian. Những biến định lượng này hỗ trợ các phân tích thống kê mô tả, tính toán doanh thu, lợi nhuận và mô hình dự báo.
## [1] 100000 11
Bộ số liệu có 100000 quan sát và 11 biến.
| Tên Cột | Loại Dữ liệu trong R (R Type) | Giải thích |
|---|---|---|
| Sale_ID | num | Mã số bán hàng. |
| Date | chr | Ngày bán hàng (cần chuyển sang Date). |
| Customer_ID | num | Mã khách hàng. |
| Bike_Model | chr | Tên hoặc loại xe đạp. |
| Price | num | Giá bán. |
| Quantity | num | Số lượng bán. |
| Store_Location | chr | Vị trí cửa hàng. |
| Salesperson_ID | num) | Mã nhân viên bán hàng. |
| Payment_Method | chr | Phương thức thanh toán. |
| Customer_Age | num | Tuổi của khách hàng. |
| Customer_Gender | chr | Giới tính của khách hàng. |
Có 5 biến định tính (chr) và 6 biến định lượng (num)
| Variable | Mean | SD | Min | Q1 | Median | Q3 | Max |
|---|---|---|---|---|---|---|---|
| Sale_ID | 50000.50 | 28867.66 | 1.00 | 25000.75 | 50000.50 | 75000.25 | 100000.00 |
| Customer_ID | 5495.45 | 2598.87 | 1000.00 | 3249.00 | 5491.00 | 7738.00 | 9999.00 |
| Price | 2598.18 | 1384.94 | 200.01 | 1399.79 | 2598.57 | 3795.98 | 4999.81 |
| Quantity | 3.00 | 1.41 | 1.00 | 2.00 | 3.00 | 4.00 | 5.00 |
| Salesperson_ID | 549.91 | 259.68 | 100.00 | 324.00 | 550.00 | 775.00 | 999.00 |
| Customer_Age | 44.04 | 15.31 | 18.00 | 31.00 | 44.00 | 57.00 | 70.00 |
Sale_ID & Customer_ID & Salesperson_ID
Đây là các mã định danh (ID) chứ không mang ý nghĩa phân tích thống kê thực sự.
Giá trị trung bình (mean) chỉ thể hiện mức giữa của dải mã, không có ý nghĩa về hành vi . Chủ yếu dùng để nhận diện từng giao dịch, khách hàng, nhân viên.
Price (Giá bán)
Giá trung bình: 2.598,18 USD
Độ lệch chuẩn (SD): 1.384,94 → chênh lệch giá khá lớn giữa các dòng xe.
Khoảng giá: từ 200,01 đến 4.999,81, tức là chênh nhau hơn 24 lần.
Trung vị (Median = 2.598,57) gần bằng giá trung bình ⇒ giá phân bố tương đối đối xứng, không bị lệch mạnh.
Quantity (Số lượng bán trong mỗi giao dịch)
Trung bình: 3 xe/giao dịch
Độ lệch chuẩn 1,41 → lượng xe bán ra giữa các giao dịch tương đối ổn định.
Phân vị: Q1=2, Q3=4 → 50% giao dịch bán từ 2 đến 4 xe.
Không có ngoại lệ lớn, phân phối khá đều.
Customer_Age (Tuổi khách hàng)
Trung bình: 44 tuổi, độ lệch chuẩn 15,31.
Min = 18 (trẻ nhất), Max = 70 (lớn tuổi nhất).
Trung vị = 44 → phân bố khá cân đối quanh trung tâm.
Độ tuổi khách hàng trải dài, nhưng tập trung ở nhóm 31–57 tuổi, cho thấy nhóm khách hàng chính là người trưởng thành trung niên có khả năng tài chính.
Kết luận:
Các biến định lượng có phân bố khá cân đối.
Biến “Price” có độ phân tán cao nhất → nên được phân tổ hoặc phân nhóm giá khi phân tích.
Biến “Quantity” và “Customer_Age” có thể sử dụng trong phân tích nhân tố ảnh hưởng đến doanh số.
## Variable Length Class Mode
## Date Date 100000 character character
## Bike_Model Bike_Model 100000 character character
## Store_Location Store_Location 100000 character character
## Payment_Method Payment_Method 100000 character character
## Customer_Gender Customer_Gender 100000 character character
Length = 100000 → Mỗi biến có 100.000 quan sát, tương ứng với 100.000 giao dịch.
Class & Mode = character → Các biến này là định tính, được lưu dưới dạng chuỗi ký tự (text).
##
## Apple Pay Cash Credit Card Debit Card Google Pay PayPal
## 16751 16692 16653 16738 16613 16553
##
## Female Male
## 50227 49773
##
## Chicago Houston Los Angeles New York Philadelphia Phoenix
## 14207 14149 14114 14515 14330 14385
## San Antonio
## 14300
## [1] 0
Bộ dữ liệu không có giá trị thiếu.
## [1] 0
Bộ dữ liệu không có giá trị bị trùng lặp
Chỉ lấy các giao dịch có giá trên 3000
## # A tibble: 41,673 × 11
## Sale_ID Date Customer_ID Bike_Model Price Quantity Store_Location
## <dbl> <chr> <dbl> <chr> <dbl> <dbl> <chr>
## 1 2 03-05-2024 3374 Hybrid Bike 3093. 4 Chicago
## 2 3 01-09-2022 2689 Folding Bike 4248. 3 San Antonio
## 3 5 05-01-2021 1633 BMX 3941. 3 Philadelphia
## 4 8 22-08-2021 5784 Road Bike 3826. 1 Philadelphia
## 5 11 14-08-2022 3879 Road Bike 3351. 4 Houston
## 6 22 05-06-2023 3344 Cruiser 4747. 5 Los Angeles
## 7 28 25-11-2022 9164 Hybrid Bike 4181. 4 Phoenix
## 8 29 17-07-2023 5981 Hybrid Bike 3187. 2 Philadelphia
## 9 30 27-11-2022 7201 BMX 4898. 1 Philadelphia
## 10 31 24-04-2024 5301 Folding Bike 4142. 1 New York
## # ℹ 41,663 more rows
## # ℹ 4 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## # Customer_Age <dbl>, Customer_Gender <chr>
Lấy khách hàng dưới 30 tuổi
## # A tibble: 22,675 × 11
## Sale_ID Date Customer_ID Bike_Model Price Quantity Store_Location
## <dbl> <chr> <dbl> <chr> <dbl> <dbl> <chr>
## 1 4 28-09-2022 3797 Mountain Bike 1722. 3 San Antonio
## 2 7 08-06-2020 6049 Hybrid Bike 1514. 4 Philadelphia
## 3 12 11-04-2022 1762 Cruiser 2752. 3 New York
## 4 16 08-02-2020 1773 BMX 2188. 2 San Antonio
## 5 18 11-09-2021 3357 Cruiser 2646. 3 Houston
## 6 24 31-10-2020 8018 Cruiser 2817. 5 New York
## 7 27 21-09-2021 8072 Mountain Bike 1958. 3 Philadelphia
## 8 29 17-07-2023 5981 Hybrid Bike 3187. 2 Philadelphia
## 9 30 27-11-2022 7201 BMX 4898. 1 Philadelphia
## 10 35 27-01-2023 3148 BMX 4885. 3 New York
## # ℹ 22,665 more rows
## # ℹ 4 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## # Customer_Age <dbl>, Customer_Gender <chr>
Khách hàng nữ (Female) có độ tuổi dưới 30 và giá xe > 2500
## # A tibble: 5,876 × 11
## Sale_ID Date Customer_ID Bike_Model Price Quantity Store_Location
## <dbl> <chr> <dbl> <chr> <dbl> <dbl> <chr>
## 1 12 11-04-2022 1762 Cruiser 2752. 3 New York
## 2 29 17-07-2023 5981 Hybrid Bike 3187. 2 Philadelphia
## 3 35 27-01-2023 3148 BMX 4885. 3 New York
## 4 51 06-03-2024 1983 Hybrid Bike 3362. 1 Los Angeles
## 5 79 04-08-2021 6132 Cruiser 3383. 1 San Antonio
## 6 102 14-10-2021 6359 Hybrid Bike 4498. 2 Houston
## 7 115 28-10-2021 9700 Road Bike 2691. 4 New York
## 8 135 25-07-2024 2660 Road Bike 4003. 2 Philadelphia
## 9 142 12-07-2020 3456 Folding Bike 2801. 4 Chicago
## 10 160 22-03-2021 4491 Electric Bike 2963. 2 Los Angeles
## # ℹ 5,866 more rows
## # ℹ 4 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## # Customer_Age <dbl>, Customer_Gender <chr>
## # A tibble: 100,000 × 12
## Sale_ID Date Customer_ID Bike_Model Price Quantity Store_Location
## <dbl> <chr> <dbl> <chr> <dbl> <dbl> <chr>
## 1 1 11-07-2022 9390 Cruiser 318. 1 Philadelphia
## 2 2 03-05-2024 3374 Hybrid Bike 3093. 4 Chicago
## 3 3 01-09-2022 2689 Folding Bike 4248. 3 San Antonio
## 4 4 28-09-2022 3797 Mountain Bike 1722. 3 San Antonio
## 5 5 05-01-2021 1633 BMX 3941. 3 Philadelphia
## 6 6 06-09-2021 9663 Mountain Bike 1778. 5 Chicago
## 7 7 08-06-2020 6049 Hybrid Bike 1514. 4 Philadelphia
## 8 8 22-08-2021 5784 Road Bike 3826. 1 Philadelphia
## 9 9 04-10-2020 9649 Road Bike 615. 3 San Antonio
## 10 10 22-03-2023 3977 Electric Bike 2707. 5 Los Angeles
## # ℹ 99,990 more rows
## # ℹ 5 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## # Customer_Age <dbl>, Customer_Gender <chr>, Age_Group <chr>
Nhóm Young: 18 đến 35 tuổi.
Nhóm Middle-Aged: 36 đến 55 tuổi.
Nhóm Senior: 56 tuổi trở lên.
## # A tibble: 10 × 2
## Price Price_Level
## <dbl> <chr>
## 1 318. Giá thấp
## 2 3093. Giá trung bình
## 3 4248. Giá cao
## 4 1722. Giá thấp
## 5 3941. Giá trung bình
## 6 1778. Giá thấp
## 7 1514. Giá thấp
## 8 3826. Giá trung bình
## 9 615. Giá thấp
## 10 2707. Giá trung bình
Price <= 2598.57 : Giá thấp.
Price > 2598.57 & Price < 4000 : Giá trung bình.
Price >= 4000 : Giá cao.
Biểu đồ cho thấy cơ cấu khách hàng theo giới tính gần như cân bằng với tỷ lệ nữ chiếm 50,23% và nam chiếm 49,77%. Điều này chứng tỏ nhu cầu mua xe đạp tương đối đồng đều giữa hai giới. Doanh nghiệp nên triển khai các chiến lược marketing và thiết kế sản phẩm hướng đến cả nam và nữ để khai thác tối đa tiềm năng thị trường.
Biểu đồ trên cho thấy một bức tranh rõ ràng về sự đồng đều và ổn định trong hiệu suất bán hàng tại các thị trường trọng điểm. Biểu đồ cột này thể hiện tổng số lượng xe bán ra tại bảy vị trí cửa hàng khác nhau: New York, Phoenix, San Antonio, Philadelphia, Chicago, Houston và Los Angeles. Điểm đáng chú ý nhất là tất cả các cửa hàng đều đạt mức doanh số rất cao, xấp xỉ 42.500 đến 43.000 đơn vị, với mức chênh lệch giữa vị trí cao nhất (New York) và các vị trí còn lại là không đáng kể. Sự cân bằng này cho thấy chiến lược tiếp thị, phân phối và quản lý bán hàng đã được thực hiện một cách hiệu quả và đồng nhất trên toàn hệ thống. Mặc dù New York có số lượng bán ra cao nhất, sự khác biệt tối thiểu này chỉ ra rằng không có cửa hàng nào bị tụt lại phía sau đáng kể. Tóm lại, biểu đồ chứng minh doanh số bán hàng mạnh mẽ và ổn định tại tất cả các vị trí được khảo sát, tạo ra một nền tảng vững chắc cho hoạt động kinh doanh tổng thể.