I. NỘI DUNG LÝ THUYẾT
1. Biến ngẫu nhiên và phân loại
- Biến ngẫu nhiên (Random Variable): Là một đại lượng
nhận các giá trị số tương ứng với kết quả của một phép thử ngẫu
nhiên.
- Phân biệt:
- Biến rời rạc: Các giá trị có thể đếm được (ví dụ:
số người trong hàng đợi, số lỗi trên một dòng code).
- Biến liên tục: Các giá trị lấp đầy một khoảng trên
trục số (ví dụ: thời gian chờ, chiều cao, nhiệt độ).
2. Hàm mật độ xác suất (PDF)
- Khái niệm: Đối với biến liên tục, hàm mật độ xác
suất \(f(x)\) thể hiện mức độ tập trung
xác suất tại một điểm.
- Đặc điểm:
- \(f(x) \ge 0\) với mọi \(x\).
- Tổng diện tích dưới đường cong mật độ bằng 1: \(\int_{-\infty}^{\infty} f(x) dx = 1\).
- Xác suất tại một điểm \(P(X=x) =
0\).
3. Hàm phân phối tích lũy (CDF)
- Định nghĩa: \(F(x)\) là xác suất để biến ngẫu nhiên \(X\) nhận giá trị nhỏ hơn hoặc bằng một giá
trị \(x\) cho trước: \[F(x) = P(X \le x)\]
- Đối với biến liên tục: \(F(x) =
\int_{-\infty}^{x} f(t) dt\).
4. Ý nghĩa Kỳ vọng và Phương sai
- Kỳ vọng (Mean - \(E[X]\)): Là giá trị trung bình
theo trọng số xác suất, đại diện cho “trọng tâm” của phân phối.
- Phương sai (Variance - \(Var(X)\)): Đo lường mức độ phân
tán (độ biến động) của các giá trị so với kỳ vọng. Phương sai càng lớn,
dữ liệu càng rời xa giá trị trung bình.
6. Khi nào sử dụng phân phối đều?
- Sử dụng khi ta biết một biến chắc chắn nằm trong khoảng \([a, b]\) nhưng không có lý do gì để tin
rằng một giá trị nào đó có khả năng xảy ra cao hơn giá trị khác (ví dụ:
sai số làm tròn, thời gian chờ xe bus nếu xe chạy liên tục không lệch
giờ).
7. Ý nghĩa của khoảng [a, b] trong phân phối đều
- a: Giá trị nhỏ nhất mà biến có thể nhận.
- b: Giá trị lớn nhất mà biến có thể nhận.
- Khoảng cách \((b - a)\) quyết định
độ cao của hàm mật độ nhằm đảm bảo tổng diện tích bằng 1.
8. Ứng dụng phân phối Poisson
- Dùng để mô tả số lần xảy ra của một sự kiện trong một khoảng thời
gian hoặc không gian cố định (ví dụ: số cuộc gọi đến tổng đài trong 1
giờ, số điểm lỗi trên 1 mét vải).
9. Tham số \(\lambda\) trong phân
phối Poisson
- \(\lambda\)
(Lambda): Là tốc độ trung bình (average rate) xảy ra sự kiện
trong khoảng đó. Trong phân phối Poisson, cả Kỳ vọng và Phương sai đều
bằng \(\lambda\).
10. Liên hệ giữa Poisson và Nhị thức
- Phân phối Poisson là trường hợp giới hạn của phân phối Nhị thức khi
số phép thử \(n \to \infty\) và xác
suất thành công \(p \to 0\), sao cho
\(np = \lambda\) không đổi.
11. Khái niệm Hồi quy tuyến tính
- Là phương pháp mô hình hóa mối quan hệ giữa biến phụ thuộc \(Y\) và một hoặc nhiều biến độc lập \(X\) bằng một phương trình đường thẳng:
\(Y = \beta_0 + \beta_1X_1 + \dots +
\epsilon\).
12. Ý nghĩa các hệ số hồi quy
- \(\beta_0\)
(Intercept): Giá trị trung bình của \(Y\) khi các \(X =
0\).
- \(\beta_i\)
(Slope): Sự thay đổi trung bình của \(Y\) khi biến \(X_i\) tăng thêm 1 đơn vị (với điều kiện các
biến khác không đổi).
13. Đa cộng tuyến (Multicollinearity)
- Là hiện tượng các biến độc lập trong mô hình có mối tương quan mạnh
với nhau.
- Tại sao cần kiểm tra: Nó làm cho các ước lượng hệ
số hồi quy không ổn định và khó xác định được mức độ đóng góp thực sự
của từng biến.
14. Chỉ số VIF (Variance Inflation Factor)
- Dùng để đo lường mức độ đa cộng tuyến.
- Quy tắc: VIF > 5 hoặc 10 thường cho thấy đa cộng
tuyến nghiêm trọng cần được xử lý.
15. Phương pháp chọn biến (Variable Selection)
- Nhằm loại bỏ các biến không có ý nghĩa để làm mô hình đơn giản hơn
(parsimonious) nhưng vẫn đảm bảo độ chính xác. Các phương pháp phổ biến:
Forward Selection, Backward Elimination, Stepwise.
16. Ý nghĩa chỉ số AIC
- AIC (Akaike Information Criterion): Dùng để so sánh
các mô hình. Nó phạt mô hình nếu có quá nhiều biến (tránh Overfitting).
Mô hình có AIC càng thấp thì càng tốt.
17. Hồi quy Logistic
- Là một thuật toán phân loại (classification) được sử dụng để dự báo
xác suất của một kết quả rời rạc (thường là nhị phân: 0/1,
Có/Không).
18. Vai trò của hàm Sigmoid
- Hàm Sigmoid \(\sigma(z) = \frac{1}{1 +
e^{-z}}\) có nhiệm vụ nén (map) các giá trị dự báo từ khoảng
\((-\infty, \infty)\) về khoảng xác
suất \((0, 1)\).
19. Các chỉ số đánh giá (Metrics)
- Accuracy: Tỉ lệ dự đoán đúng trên tổng số mẫu.
- Precision: Tỉ lệ đúng trong các mẫu được dự đoán là
Positive.
- Recall: Tỉ lệ dự đoán đúng trên tổng số mẫu thực tế
là Positive.
- F1-score: Trung bình điều hòa giữa Precision và
Recall, dùng khi dữ liệu mất cân bằng.
20. Phân biệt Hồi quy và Phân loại
- Hồi quy (Regression): Dự báo một giá trị số liên
tục (ví dụ: giá nhà, nhiệt độ).
- Phân loại (Classification): Dự báo một nhãn lớp rời
rạc (ví dụ: có bệnh hay không, phân loại các loài hoa).