I. NỘI DUNG LÝ THUYẾT

1. Biến ngẫu nhiên và phân loại

Biến ngẫu nhiên (Random Variable): Là một đại lượng nhận các giá trị số tương ứng với kết quả của một phép thử ngẫu nhiên.
Phân biệt:
- Biến rời rạc: Các giá trị có thể đếm được (ví dụ: số người trong hàng đợi, số lỗi trên một dòng code).
- Biến liên tục: Các giá trị lấp đầy một khoảng trên trục số (ví dụ: thời gian chờ, chiều cao, nhiệt độ).

2. Hàm mật độ xác suất (PDF)

Khái niệm: Đối với biến liên tục, hàm mật độ xác suất \(f(x)\) thể hiện mức độ tập trung xác suất tại một điểm.
Đặc điểm:
- \(f(x) \ge 0\) với mọi \(x\).
- Tổng diện tích dưới đường cong mật độ bằng 1: \(\int_{-\infty}^{\infty} f(x) dx = 1\).
- Xác suất tại một điểm \(P(X=x) = 0\).

3. Hàm phân phối tích lũy (CDF)

Định nghĩa: \(F(x)\) là xác suất để biến ngẫu nhiên \(X\) nhận giá trị nhỏ hơn hoặc bằng một giá trị \(x\) cho trước: \[F(x) = P(X \le x)\]
Đối với biến liên tục: \(F(x) = \int_{-\infty}^{x} f(t) dt\).

4. Ý nghĩa Kỳ vọng và Phương sai

Kỳ vọng (Mean - \(E[X]\)): Là giá trị trung bình theo trọng số xác suất, đại diện cho “trọng tâm” của phân phối.
Phương sai (Variance - \(Var(X)\)): Đo lường mức độ phân tán (độ biến động) của các giá trị so với kỳ vọng. Phương sai càng lớn, dữ liệu càng rời xa giá trị trung bình.

5. Phân phối đều liên tục (Uniform Distribution)

Đặc điểm: Xác suất xảy ra là như nhau tại mọi điểm trong một khoảng \([a, b]\).
Hàm mật độ: \(f(x) = \frac{1}{b - a}\) nếu \(a \le x \le b\), ngược lại bằng 0.

6. Khi nào sử dụng phân phối đều?

Sử dụng khi ta biết một biến chắc chắn nằm trong khoảng \([a, b]\) nhưng không có lý do gì để tin rằng một giá trị nào đó có khả năng xảy ra cao hơn giá trị khác (ví dụ: sai số làm tròn, thời gian chờ xe bus nếu xe chạy liên tục không lệch giờ).

7. Ý nghĩa của khoảng [a, b] trong phân phối đều

a: Giá trị nhỏ nhất mà biến có thể nhận.
b: Giá trị lớn nhất mà biến có thể nhận.
Khoảng cách \((b - a)\) quyết định độ cao của hàm mật độ nhằm đảm bảo tổng diện tích bằng 1.

8. Ứng dụng phân phối Poisson

Dùng để mô tả số lần xảy ra của một sự kiện trong một khoảng thời gian hoặc không gian cố định (ví dụ: số cuộc gọi đến tổng đài trong 1 giờ, số điểm lỗi trên 1 mét vải).

9. Tham số \(\lambda\) trong phân phối Poisson

\(\lambda\) (Lambda): Là tốc độ trung bình (average rate) xảy ra sự kiện trong khoảng đó. Trong phân phối Poisson, cả Kỳ vọng và Phương sai đều bằng \(\lambda\).

10. Liên hệ giữa Poisson và Nhị thức

Phân phối Poisson là trường hợp giới hạn của phân phối Nhị thức khi số phép thử \(n \to \infty\) và xác suất thành công \(p \to 0\), sao cho \(np = \lambda\) không đổi.

11. Khái niệm Hồi quy tuyến tính

Là phương pháp mô hình hóa mối quan hệ giữa biến phụ thuộc \(Y\) và một hoặc nhiều biến độc lập \(X\) bằng một phương trình đường thẳng: \(Y = \beta_0 + \beta_1X_1 + \dots + \epsilon\).

12. Ý nghĩa các hệ số hồi quy

\(\beta_0\) (Intercept): Giá trị trung bình của \(Y\) khi các \(X = 0\).
\(\beta_i\) (Slope): Sự thay đổi trung bình của \(Y\) khi biến \(X_i\) tăng thêm 1 đơn vị (với điều kiện các biến khác không đổi).

13. Đa cộng tuyến (Multicollinearity)

Là hiện tượng các biến độc lập trong mô hình có mối tương quan mạnh với nhau.
Tại sao cần kiểm tra: Nó làm cho các ước lượng hệ số hồi quy không ổn định và khó xác định được mức độ đóng góp thực sự của từng biến.

14. Chỉ số VIF (Variance Inflation Factor)

Dùng để đo lường mức độ đa cộng tuyến.
Quy tắc: VIF > 5 hoặc 10 thường cho thấy đa cộng tuyến nghiêm trọng cần được xử lý.

15. Phương pháp chọn biến (Variable Selection)

Nhằm loại bỏ các biến không có ý nghĩa để làm mô hình đơn giản hơn (parsimonious) nhưng vẫn đảm bảo độ chính xác. Các phương pháp phổ biến: Forward Selection, Backward Elimination, Stepwise.

16. Ý nghĩa chỉ số AIC

AIC (Akaike Information Criterion): Dùng để so sánh các mô hình. Nó phạt mô hình nếu có quá nhiều biến (tránh Overfitting). Mô hình có AIC càng thấp thì càng tốt.

17. Hồi quy Logistic

Là một thuật toán phân loại (classification) được sử dụng để dự báo xác suất của một kết quả rời rạc (thường là nhị phân: 0/1, Có/Không).

18. Vai trò của hàm Sigmoid

Hàm Sigmoid \(\sigma(z) = \frac{1}{1 + e^{-z}}\) có nhiệm vụ nén (map) các giá trị dự báo từ khoảng \((-\infty, \infty)\) về khoảng xác suất \((0, 1)\).

19. Các chỉ số đánh giá (Metrics)

Accuracy: Tỉ lệ dự đoán đúng trên tổng số mẫu.
Precision: Tỉ lệ đúng trong các mẫu được dự đoán là Positive.
Recall: Tỉ lệ dự đoán đúng trên tổng số mẫu thực tế là Positive.
F1-score: Trung bình điều hòa giữa Precision và Recall, dùng khi dữ liệu mất cân bằng.

20. Phân biệt Hồi quy và Phân loại

Hồi quy (Regression): Dự báo một giá trị số liên tục (ví dụ: giá nhà, nhiệt độ).
Phân loại (Classification): Dự báo một nhãn lớp rời rạc (ví dụ: có bệnh hay không, phân loại các loài hoa).