Sau khi lấy dữ liệu vào ta thực hiện chạy mô hình để đánh giá mối quan hệ giữa các biến

✅ Bước 1 – Mô hình bạn đang chạy là gì?

lm(formula = Monthly_Debt ~ Annual_Income, data = creditdata)

Đây là mô hình hồi quy tuyến tính đơn giản, dùng để dự đoán số tiền nợ hàng tháng (Monthly_Debt) dựa trên thu nhập hàng năm (Annual_Income).

📊 Bước 2 – Phân tích từng phần trong kết quả summary(mh_hoiquy)

🧩 A. Residuals – Phần dư (sai số dự đoán)

mathematica

Residuals: Min 1Q Median 3Q Max -130769 -5912 -824 5072 71211

Chỉ số Giải thích Min / Max Giá trị sai số lớn nhất và nhỏ nhất – dự đoán có thể lệch khá xa Median gần 0 Trung bình sai số không lệch hẳn về một phía Tuy nhiên Min/Max lớn Có thể tồn tại outlier (giao dịch đặc biệt) hoặc mô hình thiếu biến

👉 Cần vẽ biểu đồ phân phối phần dư để xác định xem sai số có phân bố chuẩn không (hist(), qqnorm()).

📌 B. Coefficients – Hệ số hồi quy

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)   **7.331e+03**  2.073e+02   35.36   <2e-16 ***
Annual_Income **8.112e-03**  1.279e-04   63.44   <2e-16 ***

✅ Ý nghĩa từng cột:

Cột Ý nghĩa Estimate Hệ số hồi quy (tác động của biến) Std. Error Sai số chuẩn của ước lượng t value Kiểm định t – đo mức độ khác 0 `Pr(> t

✅ Diễn giải:

Intercept (Hằng số) = 7331: Nếu Annual_Income = 0, thì dự đoán Monthly_Debt ≈ 7331

Annual_Income = 0.008112: Mỗi 1 VNĐ tăng trong thu nhập → Monthly_Debt tăng khoảng 0.0081 VNĐ

🧠 Nếu đơn vị là triệu VNĐ: Mỗi 1 triệu tăng thu nhập/năm → Monthly_Debt tăng ≈ 8,112 VNĐ

📌 P-value rất nhỏ (< 2e-16) cho cả hai hệ số → ✅ Cả hai đều có ý nghĩa thống kê cao (chắc chắn ảnh hưởng đến kết quả).

P-value (giá trị xác suất) là xác suất thu được kết quả quan sát (hoặc cực đoan hơn) giả sử giả thuyết vô hiệu H0là đúng.

Nói đơn giản: P-value giúp bạn đánh giá xem kết quả có “bất thường” đến mức không thể chỉ là ngẫu nhiên hay không.

🎯 Ngưỡng để đánh giá ý nghĩa thống kê

P-value Diễn giải Kết luận <0.001 Rất rất nhỏ ✅ Ý nghĩa thống kê cực mạnh <0.01 Nhỏ ✅ Có ý nghĩa thống kê mạnh <0.05 Thường dùng ✅ Có ý nghĩa thống kê >0.05 Lớn ❌ Không có ý nghĩa thống kê

📌 Ngưỡng phổ biến nhất là 0.05 (5%).

Nếu P-value < 0.05, ta bác bỏ giả thuyết ban đầu , và chấp nhận rằng mô hình có ý nghĩa thống kê.

📈 C. R-squared – Độ giải thích của mô hình

yaml

Multiple R-squared: 0.3343 Adjusted R-squared: 0.3342

Chỉ số Ý nghĩa R-squared = 0.3343 Mô hình giải thích 33.4% sự thay đổi của Monthly_Debt dựa vào Annual_Income Adjusted R-squared Điều chỉnh theo số lượng biến – gần bằng nên không bị overfitting

📌 Với mô hình đơn biến, 33.4% là mức chấp nhận được – có thể cải thiện bằng cách thêm biến độc lập khác (độ tuổi, giới tính, lịch sử tín dụng…).

📊 D. F-statistic – Kiểm định toàn mô hình

yaml

F-statistic: 4025 on 1 and 8017 DF, p-value: < 2.2e-16 Kiểm định toàn mô hình có ý nghĩa thống kê không?

Với p-value cực nhỏ → ✅ Mô hình có ý nghĩa tổng thể (Annual_Income giúp giải thích Monthly_Debt).

⚠️ E. Missing data

(1981 observations deleted due to missingness) ➡️ Có 1.981 dòng dữ liệu bị loại do thiếu giá trị → nên kiểm tra và cân nhắc:

Xử lý NA bằng na.omit() hoặc tidyr::fill()

Loại bỏ các giá trị NA với na.omit(data)

Auto lấp đầy các giá trị phía trên theo giá trị phía trên hoặc dưới ( auto fill)

library(tidyr)

fill(data, column_name, .direction = "down")
 

Giống fill up/dơ trong Microsoft query editor

Kiểm tra biến nào hay bị thiếu: colSums(is.na(creditdata))

🧠 Bước 3 – Tóm tắt toàn bộ kết quả

✅ Mô hình hồi quy Monthly_Debt ~ Annual_Income cho thấy:

Thu nhập tăng → Nợ hàng tháng cũng tăng (cùng chiều, có ý nghĩa)

Mỗi 1 triệu VNĐ/năm thu nhập tăng → nợ hàng tháng tăng ~8.1k

Mô hình giải thích 33.4% biến thiên của nợ → cần thêm biến để tăng độ chính xác

Mô hình đạt ý nghĩa thống kê cao (p < 0.001) cho cả biến và mô hình tổng thể

📦 Bước 4 – Gợi ý bước tiếp theo

Mục tiêu Gợi ý tiếp theo

Trực quan hóa Dùng ggplot2 để vẽ geom_point() + geom_smooth(method=“lm”)

Kiểm tra phần dư plot(mh_hoiquy) để kiểm định giả định hồi quy

Mở rộng mô hình Dùng lm(Monthly_Debt ~ Annual_Income + Age + Gender + Credit_History)

Đánh giá mô hình Tính MAE, RMSE, hoặc dùng caret / rsample để cross-validation