YÊU CẦU TUẦN 03

Tuần 3 nên tập trung vào việc đào sâu hơn các khái niệm suy diễn thống kê cho dữ liệu định tính trong bảng ngẫu nhiên (tiếp nối Chương 2) và có thể giới thiệu sơ bộ về ý tưởng của mô hình hóa (chuẩn bị cho Chương 3).

Yêu cầu và Hoạt động cho Tuần Thứ 3:

Chủ đề chính: Đào sâu Suy diễn Thống kê trong Bảng Ngẫu nhiên và Giới thiệu về Mối liên hệ Phức tạp.

A. Đọc và Chuẩn bị trước buổi học:

  1. Ôn lại kiến thức Tuần 2:
    • Xem lại các bảng tần số chéo đã tạo.
    • Ý nghĩa của kiểm định Chi-bình phương về tính độc lập.
    • Cách tính và diễn giải Relative Risk.
  2. Tìm hiểu về các nội dung sau của Chương 2:
    • Cấu trúc xác suất của bảng ngẫu nhiên: (Giới thiệu các loại phân phối có thể sinh ra bảng ngẫu nhiên: Poisson, Multinomial).
    • So sánh 2 tỷ lệ trong bảng ngẫu nhiên 2x2: (Cách tính và ý nghĩa của hiệu hai tỷ lệ, tỷ số nguy cơ - Relative Risk, tỷ số chênh - Odds Ratio).
    • Khoảng tin cậy cho các tham số đo mối liên hệ: (Đặc biệt là Odds Ratio).
    • Khuyến khích: Tìm một ví dụ đơn giản trong lĩnh vực kinh tế/kinh doanh sử dụng Odds Ratio để mô tả mối liên hệ.
  3. Suy nghĩ về bộ dữ liệu “Supermarket Transactions”:
    • Dựa trên bảng chéo 2x2 giữa GenderHomeowner (hoặc một cặp biến nhị phân khác mà sinh viên đã làm ở tuần 2), hãy thử diễn giải mối quan hệ theo hướng: “Liệu việc là Nữ (so với Nam) có làm tăng/giảm odds (tỷ số chênh) của việc sở hữu nhà hay không?” (Đây là bước chuẩn bị cho việc học về Odds Ratio).

B. Hoạt động trên lớp:

  1. Ôn tập và Thảo luận về Phân tích Chéo & RR (30 phút):
    • Câu hỏi khởi động: “Từ phân tích bảng chéo và Relative Risk ở tuần 2, chúng ta đã rút ra được những nhận định ban đầu nào về mối quan hệ giữa các biến? Những hạn chế của các thước đo này là gì?”
    • Thảo luận nhanh về các diễn giải mà sinh viên đã chuẩn bị liên quan đến “odds”.
  2. Đào sâu về Suy diễn trong Bảng Ngẫu nhiên 2x2 (60-75 phút):
    • Cấu trúc xác suất của bảng ngẫu nhiên (Giới thiệu ngắn gọn):
      • Mục đích: Giúp sinh viên hiểu rằng có cơ sở lý thuyết xác suất đằng sau các phân tích bảng ngẫu nhiên. Không đi quá sâu vào công thức nếu không cần thiết cho đối tượng sinh viên kinh tế.
    • So sánh 2 tỷ lệ và các Thước đo Mối liên hệ:
      • Hiệu hai tỷ lệ (Difference in Proportions): Cách tính, ý nghĩa, khoảng tin cậy.
        • Ví dụ với dữ liệu siêu thị: So sánh tỷ lệ sở hữu nhà giữa Nam và Nữ. P(Homeowner=Y|Gender=F) - P(Homeowner=Y|Gender=M).
      • Tỷ số Nguy cơ (Relative Risk - RR): Ôn lại cách tính (nếu đã làm ở tuần 2) và đặc biệt là cách diễn giải.
      • Tỷ số Chênh (Odds Ratio - OR):
        • Định nghĩa “Odds”: p / (1-p).
        • Định nghĩa Odds Ratio: (Odds của kết quả trong nhóm 1) / (Odds của kết quả trong nhóm 2).
        • Cách tính OR từ bảng 2x2: (ad)/(bc).
        • Diễn giải OR: Rất quan trọng! OR = 2 nghĩa là odds của việc có kết quả ở nhóm 1 cao gấp 2 lần odds ở nhóm 2. Nhấn mạnh sự khác biệt trong diễn giải so với RR.
        • Khi nào OR xấp xỉ RR? (Khi kết quả là hiếm).
        • Tại sao OR quan trọng? (Tính đối xứng, vai trò trong logistic regression sau này).
        • Ví dụ với dữ liệu siêu thị: Tính OR cho việc sở hữu nhà giữa Nữ và Nam.
    • Khoảng tin cậy cho Odds Ratio:
      • Giới thiệu cách tính (thường dựa trên log(OR)) và ý nghĩa.
      • Sử dụng R (ví dụ: DescTools::OddsRatio() hoặc các hàm từ package epitools) để tính.
      • Ví dụ: Tính KTC 95% cho OR đã tính ở trên. Diễn giải nếu KTC chứa 1.
  3. Thực hành trên R (45-60 phút):
    • Bài tập: Sinh viên làm việc theo nhóm.
      1. Chọn một cặp biến nhị phân khác từ bộ dữ liệu Supermarket Transactions (ví dụ: MaritalStatusHomeowner, hoặc tạo biến nhị phân từ AnnualIncome (cao/thấp) và xem xét mối liên hệ với Homeowner).
      2. Tạo bảng 2x2.
      3. Tính toán và diễn giải: Hiệu hai tỷ lệ, Relative Risk, Odds Ratio.
      4. Tính và diễn giải khoảng tin cậy 95% cho Odds Ratio.
      5. Thảo luận nhóm: “Những thước đo này cho chúng ta biết gì về mối liên hệ giữa hai biến? Ưu nhược điểm của mỗi thước đo là gì trong việc mô tả mối quan hệ này? Những câu hỏi định tính nào nảy sinh từ kết quả này?”
  4. Giới thiệu Mở rộng (Nếu còn thời gian - 15 phút):
    • Bảng ngẫu nhiên phân tầng (Stratified Tables) và các mối liên hệ riêng (Mục 2.3):
      • Nêu ý tưởng: “Điều gì xảy ra nếu mối quan hệ giữa GenderHomeowner lại khác nhau ở các nhóm AnnualIncome khác nhau?” Đây là khái niệm về biến kiểm soát/biến gây nhiễu.
      • Giới thiệu sơ lược về cách xem xét mối liên hệ trong từng tầng (stratum).
    • Mở rộng cho bảng tổng quát dạng I x J (Mục 2.4):
      • Nói rằng các kiểm định (như Chi-bình phương) và một số thước đo có thể áp dụng cho bảng lớn hơn 2x2.