1 Tổng quan dữ liệu

1.1 Giới thiệu dữ liệu

Bộ dữ liệu “Bike Sales 100K” được nhóm tác giả thu thập từ nền tảng Kaggle. Đây là bộ dữ liệu mô phỏng hoạt động kinh doanh trong lĩnh vực bán lẻ xe đạp, được thiết kế nhằm phục vụ cho mục đích học tập, nghiên cứu và thực hành phân tích dữ liệu.

Dữ liệu bao gồm khoảng 100.000 quan sát và 11 biến, mỗi quan sát tương ứng với một giao dịch mua xe đạp của khách hàng. Các biến có thể được phân loại thành biến định tính và biến định lượng nhằm phục vụ cho các phân tích thống kê và mô hình hóa. Các biến định tính mô tả các đặc điểm phân loại và chất lượng của khách hàng, sản phẩm và giao dịch, bao gồm: Customer_ID và Salesperson_ID, Bike_Model, Store_Location, Payment_Method và Customer_Gender. Những biến này cho phép phân tích phân phối, nhóm khách hàng, đánh giá hiệu suất nhân viên và các đặc trưng sản phẩm. Các biến định lượng thể hiện các thông số số học, đo lường giá trị và khối lượng giao dịch, bao gồm: Sale_ID, Price, Quantity và Customer_Age. Biến Date mặc dù được lưu dưới dạng ngày tháng, cũng có thể được chuyển đổi thành dạng định lượng để phân tích theo thời gian. Những biến định lượng này hỗ trợ các phân tích thống kê mô tả, tính toán doanh thu, lợi nhuận và mô hình dự báo.

2 Cấu trúc dữ liệu

2.1 Số quan sát và số biến

## [1] 100000     11

Bộ số liệu có 100000 quan sát và 11 biến.

2.2 Tên và kiểu dữ liệu của các biến

Bảng Tóm Tắt Loại Dữ liệu
Tên Cột Loại Dữ liệu trong R (R Type) Giải thích
Sale_ID num Mã số bán hàng.
Date chr Ngày bán hàng (cần chuyển sang Date).
Customer_ID num Mã khách hàng.
Bike_Model chr Tên hoặc loại xe đạp.
Price num Giá bán.
Quantity num Số lượng bán.
Store_Location chr Vị trí cửa hàng.
Salesperson_ID num) Mã nhân viên bán hàng.
Payment_Method chr Phương thức thanh toán.
Customer_Age num Tuổi của khách hàng.
Customer_Gender chr Giới tính của khách hàng.

Có 5 biến định tính (chr) và 6 biến định lượng (num)

2.3 Thống kê mô tả biến định lượng

Thống kê mô tả các biến định lượng
Variable Mean SD Min Q1 Median Q3 Max
Sale_ID 50000.50 28867.66 1.00 25000.75 50000.50 75000.25 100000.00
Customer_ID 5495.45 2598.87 1000.00 3249.00 5491.00 7738.00 9999.00
Price 2598.18 1384.94 200.01 1399.79 2598.57 3795.98 4999.81
Quantity 3.00 1.41 1.00 2.00 3.00 4.00 5.00
Salesperson_ID 549.91 259.68 100.00 324.00 550.00 775.00 999.00
Customer_Age 44.04 15.31 18.00 31.00 44.00 57.00 70.00
  1. Sale_ID & Customer_ID & Salesperson_ID

    Đây là các mã định danh (ID) chứ không mang ý nghĩa phân tích thống kê thực sự.

    Giá trị trung bình (mean) chỉ thể hiện mức giữa của dải mã, không có ý nghĩa về hành vi . Chủ yếu dùng để nhận diện từng giao dịch, khách hàng, nhân viên.

  2. Price (Giá bán)

    Giá trung bình: 2.598,18 USD

    Độ lệch chuẩn (SD): 1.384,94 → chênh lệch giá khá lớn giữa các dòng xe.

    Khoảng giá: từ 200,01 đến 4.999,81, tức là chênh nhau hơn 24 lần.

    Trung vị (Median = 2.598,57) gần bằng giá trung bình ⇒ giá phân bố tương đối đối xứng, không bị lệch mạnh.

  3. Quantity (Số lượng bán trong mỗi giao dịch)

    Trung bình: 3 xe/giao dịch

    Độ lệch chuẩn 1,41 → lượng xe bán ra giữa các giao dịch tương đối ổn định.

    Phân vị: Q1=2, Q3=4 → 50% giao dịch bán từ 2 đến 4 xe.

Không có ngoại lệ lớn, phân phối khá đều.

  1. Customer_Age (Tuổi khách hàng)

    Trung bình: 44 tuổi, độ lệch chuẩn 15,31.

    Min = 18 (trẻ nhất), Max = 70 (lớn tuổi nhất).

Trung vị = 44 → phân bố khá cân đối quanh trung tâm.

Độ tuổi khách hàng trải dài, nhưng tập trung ở nhóm 31–57 tuổi, cho thấy nhóm khách hàng chính là người trưởng thành trung niên có khả năng tài chính.

Kết luận:

Các biến định lượng có phân bố khá cân đối.

Biến “Price” có độ phân tán cao nhất → nên được phân tổ hoặc phân nhóm giá khi phân tích.

Biến “Quantity” và “Customer_Age” có thể sử dụng trong phân tích nhân tố ảnh hưởng đến doanh số.

2.4 Thống kê mô tả biến định tính

##                        Variable Length     Class      Mode
## Date                       Date 100000 character character
## Bike_Model           Bike_Model 100000 character character
## Store_Location   Store_Location 100000 character character
## Payment_Method   Payment_Method 100000 character character
## Customer_Gender Customer_Gender 100000 character character

Length = 100000 → Mỗi biến có 100.000 quan sát, tương ứng với 100.000 giao dịch.

Class & Mode = character → Các biến này là định tính, được lưu dưới dạng chuỗi ký tự (text).

2.5 Thống kê tần suất

## 
##   Apple Pay        Cash Credit Card  Debit Card  Google Pay      PayPal 
##       16751       16692       16653       16738       16613       16553
## 
## Female   Male 
##  50227  49773
## 
##      Chicago      Houston  Los Angeles     New York Philadelphia      Phoenix 
##        14207        14149        14114        14515        14330        14385 
##  San Antonio 
##        14300

2.6 Kiểm tra NA

## [1] 0

Bộ dữ liệu không có giá trị thiếu.

2.7 Kiểm tra số lượng trùng lặp

## [1] 0

Bộ dữ liệu không có giá trị bị trùng lặp

3 Lợc dữ liệu

3.1 Lọc dữ liệu theo 1 điều kiện

3.1.1 Lọc theo giá

Chỉ lấy các giao dịch có giá trên 3000

## # A tibble: 41,673 × 11
##    Sale_ID Date       Customer_ID Bike_Model   Price Quantity Store_Location
##      <dbl> <chr>            <dbl> <chr>        <dbl>    <dbl> <chr>         
##  1       2 03-05-2024        3374 Hybrid Bike  3093.        4 Chicago       
##  2       3 01-09-2022        2689 Folding Bike 4248.        3 San Antonio   
##  3       5 05-01-2021        1633 BMX          3941.        3 Philadelphia  
##  4       8 22-08-2021        5784 Road Bike    3826.        1 Philadelphia  
##  5      11 14-08-2022        3879 Road Bike    3351.        4 Houston       
##  6      22 05-06-2023        3344 Cruiser      4747.        5 Los Angeles   
##  7      28 25-11-2022        9164 Hybrid Bike  4181.        4 Phoenix       
##  8      29 17-07-2023        5981 Hybrid Bike  3187.        2 Philadelphia  
##  9      30 27-11-2022        7201 BMX          4898.        1 Philadelphia  
## 10      31 24-04-2024        5301 Folding Bike 4142.        1 New York      
## # ℹ 41,663 more rows
## # ℹ 4 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## #   Customer_Age <dbl>, Customer_Gender <chr>

3.1.2 Lọc theo độ tuổi

Lấy khách hàng dưới 30 tuổi

## # A tibble: 22,675 × 11
##    Sale_ID Date       Customer_ID Bike_Model    Price Quantity Store_Location
##      <dbl> <chr>            <dbl> <chr>         <dbl>    <dbl> <chr>         
##  1       4 28-09-2022        3797 Mountain Bike 1722.        3 San Antonio   
##  2       7 08-06-2020        6049 Hybrid Bike   1514.        4 Philadelphia  
##  3      12 11-04-2022        1762 Cruiser       2752.        3 New York      
##  4      16 08-02-2020        1773 BMX           2188.        2 San Antonio   
##  5      18 11-09-2021        3357 Cruiser       2646.        3 Houston       
##  6      24 31-10-2020        8018 Cruiser       2817.        5 New York      
##  7      27 21-09-2021        8072 Mountain Bike 1958.        3 Philadelphia  
##  8      29 17-07-2023        5981 Hybrid Bike   3187.        2 Philadelphia  
##  9      30 27-11-2022        7201 BMX           4898.        1 Philadelphia  
## 10      35 27-01-2023        3148 BMX           4885.        3 New York      
## # ℹ 22,665 more rows
## # ℹ 4 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## #   Customer_Age <dbl>, Customer_Gender <chr>

3.2 Lọc dữ liệu theo 2 điều kiện

Khách hàng nữ (Female) có độ tuổi dưới 30 và giá xe > 2500

## # A tibble: 5,876 × 11
##    Sale_ID Date       Customer_ID Bike_Model    Price Quantity Store_Location
##      <dbl> <chr>            <dbl> <chr>         <dbl>    <dbl> <chr>         
##  1      12 11-04-2022        1762 Cruiser       2752.        3 New York      
##  2      29 17-07-2023        5981 Hybrid Bike   3187.        2 Philadelphia  
##  3      35 27-01-2023        3148 BMX           4885.        3 New York      
##  4      51 06-03-2024        1983 Hybrid Bike   3362.        1 Los Angeles   
##  5      79 04-08-2021        6132 Cruiser       3383.        1 San Antonio   
##  6     102 14-10-2021        6359 Hybrid Bike   4498.        2 Houston       
##  7     115 28-10-2021        9700 Road Bike     2691.        4 New York      
##  8     135 25-07-2024        2660 Road Bike     4003.        2 Philadelphia  
##  9     142 12-07-2020        3456 Folding Bike  2801.        4 Chicago       
## 10     160 22-03-2021        4491 Electric Bike 2963.        2 Los Angeles   
## # ℹ 5,866 more rows
## # ℹ 4 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## #   Customer_Age <dbl>, Customer_Gender <chr>

4 Phân tổ dữ liệu

4.1 Phân tổ theo nhóm tuổi

## # A tibble: 100,000 × 12
##    Sale_ID Date       Customer_ID Bike_Model    Price Quantity Store_Location
##      <dbl> <chr>            <dbl> <chr>         <dbl>    <dbl> <chr>         
##  1       1 11-07-2022        9390 Cruiser        318.        1 Philadelphia  
##  2       2 03-05-2024        3374 Hybrid Bike   3093.        4 Chicago       
##  3       3 01-09-2022        2689 Folding Bike  4248.        3 San Antonio   
##  4       4 28-09-2022        3797 Mountain Bike 1722.        3 San Antonio   
##  5       5 05-01-2021        1633 BMX           3941.        3 Philadelphia  
##  6       6 06-09-2021        9663 Mountain Bike 1778.        5 Chicago       
##  7       7 08-06-2020        6049 Hybrid Bike   1514.        4 Philadelphia  
##  8       8 22-08-2021        5784 Road Bike     3826.        1 Philadelphia  
##  9       9 04-10-2020        9649 Road Bike      615.        3 San Antonio   
## 10      10 22-03-2023        3977 Electric Bike 2707.        5 Los Angeles   
## # ℹ 99,990 more rows
## # ℹ 5 more variables: Salesperson_ID <dbl>, Payment_Method <chr>,
## #   Customer_Age <dbl>, Customer_Gender <chr>, Age_Group <chr>

Nhóm Young: 18 đến 35 tuổi.

Nhóm Middle-Aged: 36 đến 55 tuổi.

Nhóm Senior: 56 tuổi trở lên.

4.2 Phân tổ theo mức giá

## # A tibble: 10 × 2
##    Price Price_Level   
##    <dbl> <chr>         
##  1  318. Giá thấp      
##  2 3093. Giá trung bình
##  3 4248. Giá cao       
##  4 1722. Giá thấp      
##  5 3941. Giá trung bình
##  6 1778. Giá thấp      
##  7 1514. Giá thấp      
##  8 3826. Giá trung bình
##  9  615. Giá thấp      
## 10 2707. Giá trung bình

Price <= 2598.57 : Giá thấp.

Price > 2598.57 & Price < 4000 : Giá trung bình.

Price >= 4000 : Giá cao.

5 Phân tích

5.1 Phân tích Tỷ lệ Khách hàng theo Giới tính

Biểu đồ cho thấy cơ cấu khách hàng theo giới tính gần như cân bằng với tỷ lệ nữ chiếm 50,23% và nam chiếm 49,77%. Điều này chứng tỏ nhu cầu mua xe đạp tương đối đồng đều giữa hai giới. Doanh nghiệp nên triển khai các chiến lược marketing và thiết kế sản phẩm hướng đến cả nam và nữ để khai thác tối đa tiềm năng thị trường.

5.2 Phân tích Số lượng Bán theo Vị trí Cửa hàng

Biểu đồ trên cho thấy một bức tranh rõ ràng về sự đồng đều và ổn định trong hiệu suất bán hàng tại các thị trường trọng điểm. Biểu đồ cột này thể hiện tổng số lượng xe bán ra tại bảy vị trí cửa hàng khác nhau: New York, Phoenix, San Antonio, Philadelphia, Chicago, Houston và Los Angeles. Điểm đáng chú ý nhất là tất cả các cửa hàng đều đạt mức doanh số rất cao, xấp xỉ 42.500 đến 43.000 đơn vị, với mức chênh lệch giữa vị trí cao nhất (New York) và các vị trí còn lại là không đáng kể. Sự cân bằng này cho thấy chiến lược tiếp thị, phân phối và quản lý bán hàng đã được thực hiện một cách hiệu quả và đồng nhất trên toàn hệ thống. Mặc dù New York có số lượng bán ra cao nhất, sự khác biệt tối thiểu này chỉ ra rằng không có cửa hàng nào bị tụt lại phía sau đáng kể. Tóm lại, biểu đồ chứng minh doanh số bán hàng mạnh mẽ và ổn định tại tất cả các vị trí được khảo sát, tạo ra một nền tảng vững chắc cho hoạt động kinh doanh tổng thể.