Thời gian giữa hai lần khách hàng vào quán cà phê tuân theo phân phối
mũ với trung bình 5 phút.
• Tính xác suất thời gian chờ ít hơn 3 phút.
• Dùng hàm pexp() trong R để kiểm tra kết quả.
\[P(X \le x) = 1 - e^{-\lambda x}\]
Trong đó:
• \(\lambda = \frac{1}{\mu}\) (với
\(\mu\) là giá trị trung bình -
mean).
• \(e \approx 2.71828\).
Đề bài:
• \(\mu\) = 5
• \(x\) = 3
lambda <- 1 / 5
x <- 3
p_thu_cong <- 1 - exp(-lambda * x)
cat("Ket qua cach 1:", p_thu_cong, "\n")
## Ket qua cach 1: 0.4511884
lambda_val <- 1 / 5
x_val <- 3
p_dung_ham <- pexp(x_val, rate = lambda_val)
cat("Ket qua cach 2:", p_dung_ham, "\n")
## Ket qua cach 2: 0.4511884
Sử dụng thư viện MASS và bộ dữ liệu Boston về giá nhà tại Mỹ,
hãy:
• Xây dựng mô hình hồi quy tuyến tính dự đoán biến medv theo 3 biến:
crim (tỷ lệ tội phạm), rm (số phòng trung bình), và dis (khoảng cách đến
trung tâm).
• Kiểm tra phương sai không đổi của phần dư bằng đồ thị Residuals vs
Fitted.
Hồi quy tuyến tính là một phương pháp thống kê dùng để mô hình hóa mối quan hệ giữa một biến phụ thuộc (\(Y\) - còn gọi là biến mục tiêu) và một hoặc nhiều biến độc lập (\(X\) - còn gọi là biến dự báo).Mục tiêu của mô hình là tìm ra một đường thẳng (hoặc mặt phẳng) sao cho tổng sai số giữa giá trị dự đoán và giá trị thực tế là nhỏ nhất.
\[Y = \beta_0 + \beta_1X_1 + \beta_2X_2 +
\beta_3X_3 + \epsilon\] Trong đó:
• \(Y\) (medv): Giá nhà trung bình
(biến cần dự báo).
• \(\beta_0\): Hệ số chặn (Intercept),
giá trị của \(Y\) khi các \(X = 0\).
• \(\beta_1, \beta_2, \beta_3\): Các hệ
số hồi quy (Coefficients), thể hiện mức độ tác động của crim, rm, dis
lên giá nhà.
• \(\epsilon\): Sai số ngẫu nhiên
(Residuals).
Để mô hình hồi quy tuyến tính có ý nghĩa, dữ liệu cần thỏa mãn các
điều kiện:
• Điều kiện 1: Tính tuyến tính: Mối quan hệ giữa \(X\) và \(Y\) là đường thẳng.
• Điều kiện 2: Tính độc lập: Các sai số không có mối tương quan với
nhau.
• Điều kiện 3: Phân phối chuẩn: Phần dư (residuals) nên tuân theo phân
phối chuẩn.
• Điều kiện 4: Phương sai không đổi (Homoscedasticity): Độ phân tán của
phần dư phải ổn định tại mọi mức giá trị dự đoán.
library(MASS)
data(Boston)
View(Boston)
# Xây dựng mô hình hồi quy tuyến tính đa biến
# medv là biến phụ thuộc, crim, rm, dis là biến độc lập
model_linear <- lm(medv ~ crim + rm + dis, data = Boston)
# Xem kết quả mẹ bạn
summary(model_linear)
##
## Call:
## lm(formula = medv ~ crim + rm + dis, data = Boston)
##
## Residuals:
## Min 1Q Median 3Q Max
## -21.247 -2.930 -0.572 2.390 39.072
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -29.45838 2.60010 -11.330 < 2e-16 ***
## crim -0.25405 0.03532 -7.193 2.32e-12 ***
## rm 8.34257 0.40870 20.413 < 2e-16 ***
## dis 0.12627 0.14382 0.878 0.38
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 6.238 on 502 degrees of freedom
## Multiple R-squared: 0.5427, Adjusted R-squared: 0.5399
## F-statistic: 198.6 on 3 and 502 DF, p-value: < 2.2e-16
# Vẽ đồ thị kiểm tra
# which = 1 nghĩa lấy đồ thị Residuals vs Fitted
plot(model_linear) # Dùng plot(model_linear, which = 1) nếu muốn chỉ lấy đồ thị Res vs Fit
• Trục tung (Residuals): Sai số giữa giá trị thực và dự đoán.
• Trục hoành (Fitted values): Giá trị dự đoán mà mô hình đưa ra.
• Nhận xét:
- Nếu các điểm dữ liệu phân tán ngẫu nhiên, không tạo thành hình thù đặc
biệt (như hình phễu) và đường màu đỏ nằm gần đường nét đứt y=0 \(\rightarrow\) Giả định phương sai không đổi
được thỏa mãn.
- Nếu các điểm tạo thành hình cái phễu (to dần hoặc nhỏ dần) \(\rightarrow\) Vi phạm giả định phương sai
không đổi (Heteroscedasticity).