Sau khi lấy dữ liệu vào ta thực hiện chạy mô hình để đánh giá mối
quan hệ giữa các biến
lm(formula = Monthly_Debt ~ Annual_Income, data = creditdata)
Đây là mô hình hồi quy tuyến tính đơn giản, dùng để dự đoán số tiền nợ hàng tháng (Monthly_Debt) dựa trên thu nhập hàng năm (Annual_Income).
mathematica
Residuals: Min 1Q Median 3Q Max -130769 -5912 -824 5072 71211
Chỉ số Giải thích Min / Max Giá trị sai số lớn nhất và nhỏ nhất – dự đoán có thể lệch khá xa Median gần 0 Trung bình sai số không lệch hẳn về một phía Tuy nhiên Min/Max lớn Có thể tồn tại outlier (giao dịch đặc biệt) hoặc mô hình thiếu biến
👉 Cần vẽ biểu đồ phân phối phần dư để xác định xem sai số có phân bố chuẩn không (hist(), qqnorm()).
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) **7.331e+03** 2.073e+02 35.36 <2e-16 ***
Annual_Income **8.112e-03** 1.279e-04 63.44 <2e-16 ***
Cột Ý nghĩa Estimate Hệ số hồi quy (tác động của biến) Std. Error Sai số chuẩn của ước lượng t value Kiểm định t – đo mức độ khác 0 `Pr(> t
Intercept (Hằng số) = 7331: Nếu Annual_Income = 0, thì dự đoán Monthly_Debt ≈ 7331
Annual_Income = 0.008112: Mỗi 1 VNĐ tăng trong thu nhập → Monthly_Debt tăng khoảng 0.0081 VNĐ
P-value (giá trị xác suất) là xác suất thu được kết quả quan sát (hoặc cực đoan hơn) giả sử giả thuyết vô hiệu H0là đúng.
Nói đơn giản: P-value giúp bạn đánh giá xem kết quả có “bất thường” đến mức không thể chỉ là ngẫu nhiên hay không.
P-value Diễn giải Kết luận <0.001 Rất rất nhỏ ✅ Ý nghĩa thống kê cực mạnh <0.01 Nhỏ ✅ Có ý nghĩa thống kê mạnh <0.05 Thường dùng ✅ Có ý nghĩa thống kê >0.05 Lớn ❌ Không có ý nghĩa thống kê
Nếu P-value < 0.05, ta bác bỏ giả thuyết ban đầu , và chấp nhận rằng mô hình có ý nghĩa thống kê.
yaml
Multiple R-squared: 0.3343 Adjusted R-squared: 0.3342
Chỉ số Ý nghĩa R-squared = 0.3343 Mô hình giải thích 33.4% sự thay đổi của Monthly_Debt dựa vào Annual_Income Adjusted R-squared Điều chỉnh theo số lượng biến – gần bằng nên không bị overfitting
yaml
F-statistic: 4025 on 1 and 8017 DF, p-value: < 2.2e-16 Kiểm định toàn mô hình có ý nghĩa thống kê không?
(1981 observations deleted due to missingness) ➡️ Có 1.981 dòng dữ liệu bị loại do thiếu giá trị → nên kiểm tra và cân nhắc:
Xử lý NA bằng na.omit() hoặc tidyr::fill()
library(tidyr)
fill(data, column_name, .direction = "down")
Giống fill up/dơ trong Microsoft query editor
Thu nhập tăng → Nợ hàng tháng cũng tăng (cùng chiều, có ý nghĩa)
Mỗi 1 triệu VNĐ/năm thu nhập tăng → nợ hàng tháng tăng ~8.1k
Mô hình giải thích 33.4% biến thiên của nợ → cần thêm biến để tăng độ chính xác
Mô hình đạt ý nghĩa thống kê cao (p < 0.001) cho cả biến và mô hình tổng thể
Mục tiêu Gợi ý tiếp theo
Trực quan hóa Dùng ggplot2 để vẽ geom_point() + geom_smooth(method=“lm”)
Kiểm tra phần dư plot(mh_hoiquy) để kiểm định giả định hồi quy
Mở rộng mô hình Dùng lm(Monthly_Debt ~ Annual_Income + Age + Gender + Credit_History)
Đánh giá mô hình Tính MAE, RMSE, hoặc dùng caret / rsample để cross-validation