Xem trước dữ liệu

Dưới đây là 6 dòng đầu tiên của bộ dữ liệu Supermarket Transactions, giúp ta có cái nhìn tổng quan về cấu trúc và các biến trong bộ dữ liệu.
6 dòng đầu của bộ dữ liệu
X PurchaseDate CustomerID Gender MaritalStatus Homeowner Children AnnualIncome City StateorProvince Country ProductFamily ProductDepartment ProductCategory UnitsSold Revenue
1 2007-12-18 7223 F S Y 2 $30K - $50K Los Angeles CA USA Food Snack Foods Snack Foods 5 27.38
2 2007-12-20 7841 M M Y 5 $70K - $90K Los Angeles CA USA Food Produce Vegetables 5 14.90
3 2007-12-21 8374 F M N 2 $50K - $70K Bremerton WA USA Food Snack Foods Snack Foods 3 5.52
4 2007-12-21 9619 M M Y 3 $30K - $50K Portland OR USA Food Snacks Candy 4 4.44
5 2007-12-22 1900 F S Y 3 $130K - $150K Beverly Hills CA USA Drink Beverages Carbonated Beverages 4 14.00
6 2007-12-22 6696 F M Y 3 $10K - $30K Beverly Hills CA USA Food Deli Side Dishes 3 4.37

Bộ dữ liệu gồm nhiều biến khác nhau, trong đó có biến Gender dùng để phân tích tiếp theo.

Tạo bảng tần số cho dữ liệu GENDER

Bảng tần số dưới đây thể hiện số lượng quan sát ở mỗi nhóm giới tính trong bộ dữ liệu. Đây là bước đầu để hiểu phân phối giới tính của người mua hàng.

Bảng tần số giới tính
Giới tính Tần số
F 7170
M 6889

Ta có thể thấy số lượng người mua hàng theo từng giới tính khác nhau,tuy không chênh lệch nhiều nhưng giúp nhận diện đặc điểm khách hàng chính.

Tạo bảng tần suất cho dữ liệu GENDER

Bảng tần suất giới tính (%)
Giới tính Tỷ lệ (%)
F 51
M 49

Vẽ biểu đồ tròn cho dữ liệu

Biểu đồ tròn giúp trực quan hóa tỷ lệ mỗi nhóm giới tính trong bộ dữ liệu. Đồng thời dễ dàng thể hiện sự phân bổ theo tỷ lệ theo từng giới tính, giúp người xem nhanh nắm bắt thông tin.

Vẽ biểu đồ cột cho dữ liệu

Biểu đồ cột cho thấy số lượng quan sát từng nhóm giới tính, thuận tiện so sánh trực quan. Thêm vào đó sẽ dễ dàng so sánh hơn số lượng giữa các nhóm giới tính và công cụ phổ biến trong báo cáo dữ liệu.

Kết luận

Vậy bộ dữ liệu này có 51% là “F”, và 49% là “M”. Có thể thấy lúc này sự phân bổ giới tính trong dữ liệu khá cân bằng, cung cấp thông tin quan trọng cho các phân tích sâu hơn về hành vi của khách hàng.