YÊU CẦU TUẦN 02
Trong bài tập này, chúng ta sẽ cùng nhau khám phá và phân tích một bộ dữ liệu về giao dịch mua hàng (đã được cung cấp dưới dạng file tmp.csv
). Mục tiêu chính là áp dụng các kiến thức về thống kê mô tả và thống kê suy diễn để hiểu rõ hơn về các đặc điểm của khách hàng và hành vi mua sắm của họ, đặc biệt tập trung vào các biến định tính.
Dữ liệu:
File dữ liệu: Supermarket Transactions.csv
Các biến định tính chính chúng ta sẽ tập trung phân tích bao gồm:
Gender
: Giới tính (F - Nữ, M - Nam)MaritalStatus
: Tình trạng hôn nhân (S - Độc thân, M - Đã kết hôn)Homeowner
: Có sở hữu nhà hay không (Y - Có, N - Không)AnnualIncome
: Thu nhập hàng năm (được biểu thị dưới dạng các khoảng)City
,StateorProvince
,Country
: Thông tin địa lýProductFamily
,ProductDepartment
,ProductCategory
: Phân loại sản phẩm
Yêu cầu Chung:
- Sử dụng ngôn ngữ lập trình R và các thư viện phù hợp (ví dụ:
dplyr
,ggplot2
,stats
) để thực hiện các phân tích. - Với mỗi yêu cầu phân tích, hãy trình bày rõ ràng:
- Mã R bạn đã sử dụng.
- Kết quả (bảng số liệu, biểu đồ).
- Nhận xét và diễn giải ý nghĩa của kết quả đó trong bối cảnh của bài toán.
- Đảm bảo các biểu đồ được đặt tên, có chú thích trục rõ ràng và dễ hiểu.
Lộ Trình Phân Tích:
Phần 1: Tìm hiểu và Chuẩn bị Dữ liệu
- Đọc và Làm quen Dữ liệu:
- Đọc file
Supermarket Transactions.csv
vào R. - Hiển thị cấu trúc của dữ liệu (sử dụng
str()
). - Hiển thị một vài dòng đầu và cuối của dữ liệu (sử dụng
head()
vàtail()
). - Kiểm tra xem có giá trị thiếu (NA) trong các cột định tính không? Nếu có, đề xuất cách xử lý phù hợp và thực hiện (ví dụ: loại bỏ, thay thế bằng mode, v.v. - giải thích lý do lựa chọn).
- Chuyển đổi các biến cần thiết sang kiểu
factor
nếu chúng chưa phải là factor (ví dụ:Gender
,MaritalStatus
,Homeowner
,AnnualIncome
, các biến về sản phẩm và địa lý).
- Đọc file
Phần 2: Phân tích Mô tả Một biến Định tính (Univariate Descriptive Analysis)
Với mỗi biến định tính được liệt kê ở trên (Gender
, MaritalStatus
, Homeowner
, AnnualIncome
, City
, StateorProvince
, Country
, ProductFamily
, ProductDepartment
, ProductCategory
):
- Thống kê Tần suất:
- Tạo bảng tần suất (số lượng) cho từng biểu hiện của biến.
- Tính toán tỷ lệ phần trăm của mỗi biểu hiện.
- Trực quan hóa:
- Vẽ biểu đồ cột (bar chart) thể hiện tần suất hoặc tỷ lệ phần trăm của các biểu hiện.
- Đối với một số biến có ít biểu hiện (ví dụ:
Gender
,Homeowner
), bạn có thể xem xét sử dụng biểu đồ tròn (pie chart) nếu thấy phù hợp, nhưng hãy cân nhắc tính hiệu quả của nó.
- Nhận xét:
- Mô tả những đặc điểm chính bạn quan sát được từ bảng tần suất và biểu đồ.
- biểu hiện nào chiếm ưu thế? Có sự chênh lệch lớn giữa các biểu hiện không?
Phần 3: Ước lượng Khoảng và Kiểm định Giả thuyết cho Tỷ lệ (Một biến)
Chọn ít nhất ba biến định tính từ danh sách trên (ưu tiên các biến có ít biểu hiện hoặc có một biểu hiện bạn đặc biệt quan tâm). Với mỗi biến đã chọn:
- Xác định biểu hiện Quan tâm: Chọn một biểu hiện cụ thể của biến (ví dụ: “Nữ” trong
Gender
, “Y” trongHomeowner
, “Food” trongProductFamily
). - Ước lượng Khoảng Tin cậy:
- Tính khoảng tin cậy 95% cho tỷ lệ của biểu hiện bạn đã chọn trong tổng thể.
- Diễn giải ý nghĩa của khoảng tin cậy này.
- Kiểm định Giả thuyết:
- Đặt một giả thuyết không (H0) về tỷ lệ của biểu hiện đó trong tổng thể (ví dụ: H0: tỷ lệ Nữ = 0.5; H0: tỷ lệ chủ nhà = 0.6; H0: tỷ lệ sản phẩm Food >= 0.7).
- Thực hiện kiểm định giả thuyết phù hợp (ví dụ:
prop.test()
). - Báo cáo giá trị p và đưa ra kết luận (bác bỏ hoặc không bác bỏ H0) ở mức ý nghĩa α = 0.05.
- Giải thích kết luận của bạn có ý nghĩa gì.
Phần 4: Phân tích Mối quan hệ giữa Hai biến Định tính (Bivariate Analysis)
Chọn ít nhất ba cặp biến định tính mà bạn cho rằng có thể có mối quan hệ thú vị. Ví dụ:
Gender
vàProductFamily
MaritalStatus
vàHomeowner
AnnualIncome
vàProductCategory
StateorProvince
vàProductFamily
- Hoặc bất kỳ cặp nào khác bạn thấy có tiềm năng.
Với mỗi cặp biến đã chọn:
- Bảng tần suất chéo:
- Tạo bảng tần suất chéo (contingency table) cho hai biến.
- Tính toán tỷ lệ phần trăm (theo hàng, cột hoặc tổng thể - tùy thuộc vào câu hỏi bạn muốn trả lời, hãy giải thích lựa chọn của mình).
- Trực quan hóa:
- Vẽ biểu đồ phù hợp để thể hiện mối quan hệ (ví dụ: biểu đồ cột chồng, biểu đồ cột nhóm).
- Nhận xét Mô tả:
- Mô tả mối quan hệ bạn quan sát được. Có vẻ như có sự liên kết giữa hai biến này không? Xu hướng là gì?
- Kiểm định Thống kê (Kiểm định Chi-bình phương):
- Phát biểu giả thuyết không (H0: hai biến độc lập) và giả thuyết đối (H1: hai biến có liên quan).
- Thực hiện kiểm định Chi-bình phương (Chi-squared test of independence).
- Báo cáo giá trị Chi-bình phương, bậc tự do (df), và giá trị p.
- Dựa vào giá trị p, đưa ra kết luận về tính độc lập của hai biến ở mức ý nghĩa α = 0.05.
- Nếu có mối quan hệ ý nghĩa thống kê, hãy thảo luận thêm về bản chất của mối quan hệ đó dựa trên bảng tần suất chéo và biểu đồ.
Phần 5: Tổng kết và Thảo luận
- Tóm tắt những phát hiện chính: Dựa trên tất cả các phân tích của bạn, hãy tóm tắt những hiểu biết quan trọng nhất về đặc điểm khách hàng và hành vi mua sắm của họ từ các biến định tính.
- Hạn chế của phân tích: Nêu ra những hạn chế có thể có trong phân tích của bạn (ví dụ: chất lượng dữ liệu, giới hạn của việc chỉ phân tích biến định tính, kích thước mẫu cho một số biểu hiện con).
- Đề xuất (nếu có): Dựa trên những phát hiện, bạn có đề xuất nào cho doanh nghiệp (ví dụ: về chiến lược marketing, phân loại sản phẩm, nhắm mục tiêu khách hàng) không?
- Câu hỏi mở/Hướng nghiên cứu tiếp theo: Bạn có những câu hỏi nào khác nảy sinh từ phân tích này mà bạn muốn khám phá thêm nếu có thời gian và dữ liệu bổ sung không?
Tiêu chí đánh giá:
- Mức độ hoàn thành các yêu cầu.
- Tính chính xác của các phép tính và mã R.
- Khả năng lựa chọn và tạo các biểu đồ phù hợp, rõ ràng.
- Khả năng diễn giải kết quả một cách logic, sâu sắc và có ý nghĩa thực tiễn.
- Sự mạch lạc, rõ ràng trong cách trình bày báo cáo.
- Sự sáng tạo và tư duy phản biện trong việc khám phá dữ liệu.
Thời hạn nộp bài: 5 ngày
Chúc các bạn làm bài tốt và khám phá được nhiều điều thú vị từ dữ liệu! Nếu có bất kỳ câu hỏi nào thì cùng nhau trao đổi trên MS Team.