Câu 1

Thời gian giữa hai lần khách hàng vào quán cà phê tuân theo phân phối mũ với trung bình 5 phút.
• Tính xác suất thời gian chờ ít hơn 3 phút.
• Dùng hàm pexp() trong R để kiểm tra kết quả.

1. Lý thuyết phân phối mũ

\[P(X \le x) = 1 - e^{-\lambda x}\] Trong đó:
\(\lambda = \frac{1}{\mu}\) (với \(\mu\) là giá trị trung bình - mean).
\(e \approx 2.71828\).

Đề bài:
\(\mu\) = 5
\(x\) = 3

2. Code R

Cách 1: Thuần chay

lambda <- 1 / 5
x <- 3
p_thu_cong <- 1 - exp(-lambda * x)

cat("Ket qua cach 1:", p_thu_cong, "\n")
## Ket qua cach 1: 0.4511884

Cách 2: Dùng hàm

lambda_val <- 1 / 5
x_val <- 3
p_dung_ham <- pexp(x_val, rate = lambda_val)

cat("Ket qua cach 2:", p_dung_ham, "\n")
## Ket qua cach 2: 0.4511884

Câu 2

Sử dụng thư viện MASS và bộ dữ liệu Boston về giá nhà tại Mỹ, hãy:
• Xây dựng mô hình hồi quy tuyến tính dự đoán biến medv theo 3 biến: crim (tỷ lệ tội phạm), rm (số phòng trung bình), và dis (khoảng cách đến trung tâm).
• Kiểm tra phương sai không đổi của phần dư bằng đồ thị Residuals vs Fitted.

1. Lý thuyết hồi quy tuyến tính

1.1. Khái niệm

Hồi quy tuyến tính là một phương pháp thống kê dùng để mô hình hóa mối quan hệ giữa một biến phụ thuộc (\(Y\) - còn gọi là biến mục tiêu) và một hoặc nhiều biến độc lập (\(X\) - còn gọi là biến dự báo).Mục tiêu của mô hình là tìm ra một đường thẳng (hoặc mặt phẳng) sao cho tổng sai số giữa giá trị dự đoán và giá trị thực tế là nhỏ nhất.

1.2. Phương trình hồi quy

\[Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \beta_3X_3 + \epsilon\] Trong đó:
\(Y\) (medv): Giá nhà trung bình (biến cần dự báo).
\(\beta_0\): Hệ số chặn (Intercept), giá trị của \(Y\) khi các \(X = 0\).
\(\beta_1, \beta_2, \beta_3\): Các hệ số hồi quy (Coefficients), thể hiện mức độ tác động của crim, rm, dis lên giá nhà.
\(\epsilon\): Sai số ngẫu nhiên (Residuals).

1.3. Các giả định quan trọng (Assumptions)

Để mô hình hồi quy tuyến tính có ý nghĩa, dữ liệu cần thỏa mãn các điều kiện:
• Điều kiện 1: Tính tuyến tính: Mối quan hệ giữa \(X\)\(Y\) là đường thẳng.
• Điều kiện 2: Tính độc lập: Các sai số không có mối tương quan với nhau.
• Điều kiện 3: Phân phối chuẩn: Phần dư (residuals) nên tuân theo phân phối chuẩn.
• Điều kiện 4: Phương sai không đổi (Homoscedasticity): Độ phân tán của phần dư phải ổn định tại mọi mức giá trị dự đoán.

2. Code R

Bước 1: Xây dựng mô hình

library(MASS)
data(Boston)
View(Boston)

# Xây dựng mô hình hồi quy tuyến tính đa biến
# medv là biến phụ thuộc, crim, rm, dis là biến độc lập
model_linear <- lm(medv ~ crim + rm + dis, data = Boston)

# Xem kết quả mẹ bạn
summary(model_linear)
## 
## Call:
## lm(formula = medv ~ crim + rm + dis, data = Boston)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -21.247  -2.930  -0.572   2.390  39.072 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -29.45838    2.60010 -11.330  < 2e-16 ***
## crim         -0.25405    0.03532  -7.193 2.32e-12 ***
## rm            8.34257    0.40870  20.413  < 2e-16 ***
## dis           0.12627    0.14382   0.878     0.38    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 6.238 on 502 degrees of freedom
## Multiple R-squared:  0.5427, Adjusted R-squared:  0.5399 
## F-statistic: 198.6 on 3 and 502 DF,  p-value: < 2.2e-16

Bước 2: Kiểm tra phương sai không đổi bằng đồ thị

# Vẽ đồ thị kiểm tra
# which = 1 nghĩa lấy đồ thị Residuals vs Fitted
plot(model_linear) # Dùng plot(model_linear, which = 1) nếu muốn chỉ lấy đồ thị Res vs Fit

Bước 3: Cách đọc đồ thị Residuals vs Fitted

• Trục tung (Residuals): Sai số giữa giá trị thực và dự đoán.
• Trục hoành (Fitted values): Giá trị dự đoán mà mô hình đưa ra.
• Nhận xét:
- Nếu các điểm dữ liệu phân tán ngẫu nhiên, không tạo thành hình thù đặc biệt (như hình phễu) và đường màu đỏ nằm gần đường nét đứt y=0 \(\rightarrow\) Giả định phương sai không đổi được thỏa mãn.
- Nếu các điểm tạo thành hình cái phễu (to dần hoặc nhỏ dần) \(\rightarrow\) Vi phạm giả định phương sai không đổi (Heteroscedasticity).