Giới
thiệu
Bộ dữ liệu mpg
là một tập dữ liệu kinh điển được thu
thập bởi Cơ quan Bảo vệ Môi trường Hoa Kỳ (EPA), chứa thông tin về mức
tiêu thụ nhiên liệu của các mẫu xe phổ biến từ năm 1999 đến 2008. Dữ
liệu này thường được dùng để nghiên cứu mối quan hệ giữa các đặc tính
của xe và hiệu suất nhiên liệu. Trong nghiên cứu này, tác giả tập trung
vào hai biến định tính quan trọng liên quan đến cấu trúc và phân loại
xe, đó là:
drv
: Loại hệ dẫn động của xe
(f
= cầu trước, r
= cầu sau, 4
=
hai cầu).
class
: Phân loại xe (ví dụ:
compact
, suv
, midsize
).
Hai biến này được chọn làm biến nghiên cứu chính,
với mục tiêu phân tích xem các yếu tố kỹ thuật và đặc điểm của
nhà sản xuất như:
- Nhà sản xuất (
manufacturer
)
- Số xi-lanh của động cơ (
cyl
)
- Dung tích động cơ (
displ
)
- Loại hộp số (
trans
)
… có ảnh hưởng như thế nào đến loại hệ dẫn động và
phân khúc xe của một mẫu xe.
Thông qua việc sử dụng các công cụ phân tích dữ liệu định tính như:
bảng tần số, biểu đồ minh họa, kiểm định Chi bình phương, phân tích tỷ
số chênh lệch (Odds Ratio) và rủi ro tương đối (Relative Risk), bài
nghiên cứu sẽ làm rõ các yếu tố quan trọng ảnh hưởng đến đặc tính kỹ
thuật của các dòng xe, từ đó đưa ra những góc nhìn hữu ích cho ngành
công nghiệp ô tô về xu hướng thiết kế và sản xuất.
Đọc và khám
phá dữ liệu
library(ggplot2)
library(dplyr)
library(epitools)
# Đọc dữ liệu từ package ggplot2
data("mpg")
str(mpg)
## tibble [234 × 11] (S3: tbl_df/tbl/data.frame)
## $ manufacturer: chr [1:234] "audi" "audi" "audi" "audi" ...
## $ model : chr [1:234] "a4" "a4" "a4" "a4" ...
## $ displ : num [1:234] 1.8 1.8 2 2 2.8 2.8 3.1 1.8 1.8 2 ...
## $ year : int [1:234] 1999 1999 2008 2008 1999 1999 2008 1999 1999 2008 ...
## $ cyl : int [1:234] 4 4 4 4 6 6 6 4 4 4 ...
## $ trans : chr [1:234] "auto(l5)" "manual(m5)" "manual(m6)" "auto(av)" ...
## $ drv : chr [1:234] "f" "f" "f" "f" ...
## $ cty : int [1:234] 18 21 20 21 16 18 18 18 16 20 ...
## $ hwy : int [1:234] 29 29 31 30 26 26 27 26 25 28 ...
## $ fl : chr [1:234] "p" "p" "p" "p" ...
## $ class : chr [1:234] "compact" "compact" "compact" "compact" ...
summary(mpg)
## manufacturer model displ year
## Length:234 Length:234 Min. :1.600 Min. :1999
## Class :character Class :character 1st Qu.:2.400 1st Qu.:1999
## Mode :character Mode :character Median :3.300 Median :2004
## Mean :3.472 Mean :2004
## 3rd Qu.:4.600 3rd Qu.:2008
## Max. :7.000 Max. :2008
## cyl trans drv cty
## Min. :4.000 Length:234 Length:234 Min. : 9.00
## 1st Qu.:4.000 Class :character Class :character 1st Qu.:14.00
## Median :6.000 Mode :character Mode :character Median :17.00
## Mean :5.889 Mean :16.86
## 3rd Qu.:8.000 3rd Qu.:19.00
## Max. :8.000 Max. :35.00
## hwy fl class
## Min. :12.00 Length:234 Length:234
## 1st Qu.:18.00 Class :character Class :character
## Median :24.00 Mode :character Mode :character
## Mean :23.44
## 3rd Qu.:27.00
## Max. :44.00
sapply(mpg, function(x) length(unique(x)))
## manufacturer model displ year cyl trans
## 15 38 35 2 4 10
## drv cty hwy fl class
## 3 21 27 5 7
Mô tả các
biến
manufacturer |
Character |
15 |
Hãng sản xuất xe (ví dụ: audi , ford ,
toyota ). |
model |
Character |
38 |
Tên dòng xe. |
displ |
Numeric |
47 |
Dung tích động cơ (lít). |
year |
Integer |
2 |
Năm sản xuất (1999 hoặc 2008). |
cyl |
Integer |
4 |
Số xi-lanh động cơ (4, 5, 6, 8). |
trans |
Character |
10 |
Loại hộp số (ví dụ: auto(l5) ,
manual(m6) ). |
drv |
Character |
3 |
Loại hệ dẫn động (f =cầu trước, r =cầu sau,
4 =hai cầu). |
cty |
Integer |
21 |
Mức tiêu thụ nhiên liệu trong thành phố (dặm/gallon). |
hwy |
Integer |
27 |
Mức tiêu thụ nhiên liệu trên cao tốc (dặm/gallon). |
fl |
Character |
5 |
Loại nhiên liệu (p =premium, r =regular,
e =ethanol, d =diesel, c =cng). |
class |
Character |
7 |
Phân loại xe (ví dụ: compact , suv ,
pickup ). |
Nhận xét
Bộ dữ liệu gồm 11 biến và 234 quan sát, được chia thành hai nhóm
chính: biến định lượng và biến định tính.
Biến định lượng: Gồm các biến
displ
, year
, cyl
,
cty
, hwy
. Các biến này đo lường các thông số
kỹ thuật và hiệu suất, có thể dùng để tính toán các chỉ số thống kê và
xây dựng mô hình hồi quy.
Các biến định tính: Gồm các biến
manufacturer
, model
, trans
,
drv
, fl
, class
. Các biến này mang
thông tin dạng danh mục, thường được phân tích bằng cách đếm tần số, tỷ
lệ, và sử dụng các phương pháp thống kê cho dữ liệu định tính.
Tạo bộ dữ liệu chỉ có biến định tính (và các biến định lượng
cần thiết)
# Tạo bộ dữ liệu chỉ chứa các biến cần thiết cho phân tích định tính
data1 <- mpg %>%
select(manufacturer, class, drv, cyl, trans)
# Xem trước dữ liệu mới
str(data1)
## tibble [234 × 5] (S3: tbl_df/tbl/data.frame)
## $ manufacturer: chr [1:234] "audi" "audi" "audi" "audi" ...
## $ class : chr [1:234] "compact" "compact" "compact" "compact" ...
## $ drv : chr [1:234] "f" "f" "f" "f" ...
## $ cyl : int [1:234] 4 4 4 4 6 6 6 4 4 4 ...
## $ trans : chr [1:234] "auto(l5)" "manual(m5)" "manual(m6)" "auto(av)" ...
head(data1)
Phương pháp Ước
lượng Hợp lý Tối đa (Maximum Likelihood Estimation – MLE)
Giới thiệu
chung
Trong thống kê và học máy, dữ liệu thường được mô hình hóa thông qua
các phân phối xác suất. Một phân phối xác suất được đặc
trưng bởi một số tham số, ví dụ như:
- Phân phối chuẩn (Gaussian): \(\mu\)
(trung bình), \(\sigma^2\) (phương
sai).
- Phân phối Poisson: tham số đặc trưng là \(\lambda\).
Nếu ta đã biết được dạng của phân phối xác suất, vấn đề đặt ra là:
làm sao tìm được các tham số mô tả phân phối đó một cách phù hợp
nhất với dữ liệu quan sát? Đó chính là nhiệm vụ của phương pháp
ước lượng hợp lý tối đa (Maximum Likelihood Estimation –
MLE).
MLE là một công cụ căn bản và quan trọng trong thống kê suy diễn và
học máy, giúp chúng ta tìm ra các tham số mô hình sao cho phân
phối xác suất sinh ra dữ liệu là “phù hợp nhất” với thực tế đã quan
sát.
Mục tiêu và
nguyên lý của MLE
Khái niệm
hàm hợp lý (Likelihood Function)
Hàm hợp lý (likelihood function) đo lường
mức độ phù hợp của mô hình (tham số) với dữ liệu đã quan
sát. Tức là, với một mô hình xác suất có tham số \(\mathbf{w}\), hàm hợp lý cho biết
xác suất để toàn bộ tập dữ liệu \(\mathcal{D}\) xảy ra, dưới giả
định rằng dữ liệu được sinh ra từ mô hình đó.
Giả sử có một bộ dữ liệu gồm \(N\)
quan sát đầu vào:
\[
\mathcal{D} = \{ \mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_N \}
\]
và mô hình phân phối xác suất \(P(\mathbf{x}|\mathbf{w})\) phụ thuộc vào
tham số
\[
\mathbf{w} = (w_1, w_2, \ldots, w_k)^T
\]
Khi đó, hàm hợp lý được định nghĩa là:
\[
L(\mathbf{w}) = P(\mathcal{D}|\mathbf{w}) = P(\mathbf{x}_1,
\mathbf{x}_2, \ldots, \mathbf{x}_N|\mathbf{w})
\]
Nếu các quan sát \(\mathbf{x}_i\) là
độc lập và phân phối giống nhau (i.i.d – independent and
identically distributed), thì hàm hợp lý có thể viết lại
thành:
\[
L(\mathbf{w}) = \prod_{i=1}^{N} P(\mathbf{x}_i|\mathbf{w})
\]
Nguyên lý
tối đa hóa hợp lý
Nguyên lý cốt lõi của MLE là chọn giá trị tham số \(\hat{\mathbf{w}}\) sao cho hàm hợp
lý đạt giá trị lớn nhất. Nói cách khác, ta tìm tham số mà
dưới nó thì xác suất tạo ra dữ liệu quan sát là cao
nhất:
\[
\hat{\mathbf{w}} = \arg\max_{\mathbf{w}} L(\mathbf{w})
\]
Tuy nhiên, việc tối ưu một tích lớn các xác suất như vậy thường không
thuận tiện. Vì vậy, ta thường lấy log của hàm hợp lý để
thu được hàm log-hợp lý (log-likelihood function):
\[
\ell(\mathbf{w}) = \log L(\mathbf{w}) = \sum_{i=1}^{N} \log
P(\mathbf{x}_i|\mathbf{w})
\]
Do hàm log là đơn điệu tăng, nên điểm cực đại của \(\ell(\mathbf{w})\) cũng chính là cực đại
của \(L(\mathbf{w})\). Vậy nên:
\[
\hat{\mathbf{w}} = \arg\max_{\mathbf{w}} \ell(\mathbf{w})
\]
Tóm tắt quy
trình MLE
Bước 1 |
Xác định mô hình xác suất \(P(x|\mathbf{w})\) và giả định dữ liệu độc
lập (i.i.d). |
Bước 2 |
Viết hàm hợp lý \(L(\mathbf{w})\)
hoặc log-hợp lý \(\ell(\mathbf{w})\). |
Bước 3 |
Tính đạo hàm của \(\ell(\mathbf{w})\) theo \(\mathbf{w}\), rồi giải phương trình đạo hàm
bằng 0. |
Bước 4 |
Kiểm tra điều kiện tối ưu (đạo hàm bậc hai, tính lồi, v.v.). |
Bước 5 |
Kết luận \(\hat{\mathbf{w}}\) là
ước lượng MLE. |
Mô hình hóa
bài toán dưới dạng toán học
Trong trường hợp dữ liệu phân phối i.i.d, bài toán MLE trở thành:
\[
\hat{\mathbf{w}} = \arg\max_{\mathbf{w}} \sum_{i=1}^{N} \log
P(\mathbf{x}_i|\mathbf{w})
\]
Đây là một bài toán tối ưu hóa có thể giải bằng:
- Đạo hàm tường minh (nếu có thể),
- Gradient Descent / Newton-Raphson (trong trường hợp phức tạp),
- Kỹ thuật tối ưu hóa số.
Tính chất của
ước lượng MLE
Nhất quán (Consistency) |
Khi \(N \to \infty\), MLE hội tụ về
đúng tham số thực sự. |
Bất biến (Invariance) |
Nếu \(\hat{\theta}\) là MLE của
\(\theta\), thì \(g(\hat{\theta})\) là MLE của \(g(\theta)\). |
Phân phối tiệm cận chuẩn |
MLE tiệm cận theo phân phối chuẩn khi \(N
\to \infty\). |
Không thiên lệch tiệm cận |
Khi mẫu lớn, sai số trung bình của MLE tiến về 0. |
Kết
luận
Phương pháp ước lượng hợp lý tối đa (MLE) là một
công cụ then chốt trong thống kê và học máy. Bằng cách tối đa hóa xác
suất sinh ra dữ liệu đã quan sát, MLE hướng tới mục tiêu chọn mô hình
phù hợp nhất với thực tế. Phương pháp này có cơ sở lý thuyết vững chắc
và có thể áp dụng để ước lượng tham số của nhiều phân phối phổ biến như
Bernoulli, Gaussian, Poisson, v.v.
Mô hình Hồi quy
Logistic và Probit
Giới thiệu
chung
Khi các phương pháp phân tích bảng chéo và kiểm định Chi bình phương
đã xác nhận sự tồn tại của mối quan hệ giữa các biến định tính, bước
tiếp theo là xây dựng một mô hình dự báo để lượng hóa tác động của các
biến độc lập lên một biến phụ thuộc nhị phân. Khi biến phụ thuộc có hai
giá trị (ví dụ: 4WD
/ Không 4WD
), mô hình hồi
quy tuyến tính thông thường (OLS) sẽ không còn phù hợp vì nó có thể dự
đoán các giá trị nằm ngoài khoảng [0, 1], điều vô lý đối với một xác
suất.
Để giải quyết vấn đề này, các mô hình xác suất phi tuyến như
Hồi quy Logistic và Hồi quy Probit
được sử dụng. Cả hai đều thuộc nhóm Mô hình Tuyến tính Tổng quát
(Generalized Linear Models - GLM), với mục tiêu mô hình hóa xác
suất xảy ra của một sự kiện, \(P(Y=1|X)\), dựa trên các biến độc lập \(X\).
Hồi quy
Logistic (Logistic Regression)
Mục tiêu và
nguyên lý
Hồi quy Logistic không mô hình hóa trực tiếp xác suất \(p\), mà mô hình hóa logarit của tỷ
số chênh (log-odds), còn gọi là hàm logit.
- Tỷ số chênh (Odds): Là tỷ lệ giữa xác suất xảy ra
sự kiện và xác suất không xảy ra sự kiện: \[
\text{Odds} = \frac{p}{1-p} \]
- Hàm Logit: Là logarit tự nhiên của Odds: \[ \text{logit}(p) = \ln\left(\frac{p}{1-p}\right)
\]
Hàm logit có một đặc tính tuyệt vời: nó biến một giá trị xác suất
\(p\) trong khoảng (0, 1) thành một giá
trị trên toàn bộ trục số thực \((-\infty,
+\infty)\). Điều này cho phép chúng ta mô hình hóa nó như một tổ
hợp tuyến tính của các biến độc lập:
\[
\ln\left(\frac{p_i}{1-p_i}\right) = \beta_0 + \beta_1 X_{i1} + \beta_2
X_{i2} + \ldots + \beta_k X_{ik}
\]
Diễn giải
hệ số
Việc diễn giải hệ số \(\beta\) trực
tiếp khá phức tạp (“sự thay đổi trong log-odds”). Thay vào đó, chúng ta
thường lấy lũy thừa cơ số \(e\) của hệ
số để có được Tỷ số chênh (Odds Ratio - OR):
\[
\text{OR} = e^\beta
\]
- Nếu \(\beta_1 > 0 \implies e^{\beta_1}
> 1\): Khi \(X_1\) tăng 1 đơn
vị, odds để sự kiện \(Y=1\) xảy ra sẽ
tăng lên \(e^{\beta_1}\) lần, giữ các biến khác không
đổi.
- Nếu \(\beta_1 < 0 \implies e^{\beta_1}
< 1\): Khi \(X_1\) tăng 1 đơn
vị, odds để sự kiện \(Y=1\) xảy ra sẽ
giảm xuống còn \(e^{\beta_1}\) lần, giữ các biến khác không
đổi.
- Nếu \(\beta_1 = 0 \implies e^{\beta_1} =
1\): Biến \(X_1\) không ảnh
hưởng đến odds của sự kiện.
Hồi quy
Probit (Probit Regression)
Mục tiêu và
nguyên lý
Hồi quy Probit cũng mô hình hóa xác suất \(p\), nhưng thay vì dùng hàm logit, nó sử
dụng hàm phân phối tích lũy (CDF) của phân phối chuẩn
tắc, ký hiệu là \(\Phi(z)\).
Ý tưởng cơ bản là có một “biến tiềm ẩn” (latent variable) \(Y^*\) tuân theo phân phối chuẩn. Chúng ta
không quan sát được \(Y^*\), mà chỉ
quan sát được \(Y=1\) nếu \(Y^*\) vượt qua một ngưỡng nào đó.
Mô hình Probit có dạng: \[
P(Y=1|X) = \Phi(\beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k
X_k)
\] Hoặc viết theo dạng hàm ngược (hàm probit): \[
\Phi^{-1}(p_i) = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \ldots +
\beta_k X_{ik}
\]
Diễn giải
hệ số
Hệ số \(\beta\) trong mô hình Probit
thể hiện sự thay đổi trong z-score (giá trị trên trục
hoành của phân phối chuẩn tắc) khi biến độc lập \(X\) thay đổi 1 đơn vị. Việc diễn giải này
không trực quan và thường ít được sử dụng trong báo cáo kinh doanh. Thay
vào đó, người ta thường tính toán và báo cáo tác động biên
(marginal effects), tức là sự thay đổi trong xác suất \(p\) khi \(X\) thay đổi.
Logistic
vs. Probit: Lựa chọn nào?
Hàm liên kết |
Logit, dựa trên phân phối Logistic |
Probit, dựa trên phân phối Chuẩn |
Độ dốc |
Đường cong S (sigmoid) hơi phẳng hơn ở đuôi |
Đường cong S (sigmoid) dốc hơn ở đuôi |
Diễn giải |
Hệ số có thể diễn giải trực tiếp qua Odds Ratio
(OR) |
Hệ số khó diễn giải, thường dùng tác động biên |
Sử dụng |
Rất phổ biến trong y sinh, khoa học xã hội,
marketing |
Phổ biến trong kinh tế lượng |
Trong thực tế, cả hai mô hình thường cho kết quả dự đoán rất giống
nhau. Hồi quy Logistic thường được ưa chuộng hơn vì tính dễ diễn
giải của Odds Ratio.
Áp dụng mô
hình dự đoán hệ dẫn động hai cầu (4WD
)
Câu hỏi nghiên cứu: Những yếu tố kỹ thuật nào (dung
tích động cơ, số xi-lanh) ảnh hưởng đến khả năng một chiếc xe được trang
bị hệ dẫn động hai cầu (4WD
)?
Chuẩn bị dữ
liệu
Chúng ta sẽ tạo một biến phụ thuộc mới là is_4wd
, nhận
giá trị 1
nếu xe là 4WD
và 0
trong trường hợp còn lại.
# Tạo biến phụ thuộc nhị phân
mpg_model_data <- mpg %>%
mutate(is_4wd = ifelse(drv == "4", 1, 0))
# Xem qua dữ liệu mới
head(mpg_model_data %>% select(manufacturer, model, drv, is_4wd, displ, cyl))
Xây dựng và
phân tích mô hình Hồi quy Logistic
Chúng ta sẽ xây dựng mô hình dự đoán is_4wd
dựa trên
displ
(dung tích động cơ) và cyl
(số
xi-lanh).
# Xây dựng mô hình Logistic
logit_model <- glm(is_4wd ~ displ + cyl,
data = mpg_model_data,
family = binomial(link = "logit"))
# Xem kết quả
summary(logit_model)
##
## Call:
## glm(formula = is_4wd ~ displ + cyl, family = binomial(link = "logit"),
## data = mpg_model_data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -2.2004 0.6051 -3.637 0.000276 ***
## displ 0.7385 0.3118 2.368 0.017871 *
## cyl -0.1056 0.2412 -0.438 0.661626
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 321.03 on 233 degrees of freedom
## Residual deviance: 289.07 on 231 degrees of freedom
## AIC: 295.07
##
## Number of Fisher Scoring iterations: 4
Diễn giải kết quả mô hình Logistic:
- Hệ số của
displ
(Dung tích động cơ):
- Hệ số là
0.7385
. Giá trị này dương và có ý nghĩa thống
kê (p-value = 0.017 < 0.05).
- Để diễn giải, ta tính Odds Ratio:
exp(0.7385) ≈ 2.09
.
- Diễn giải: Nếu số xi-lanh không đổi thì khi dung
tích động cơ tăng 1 lít, tỷ lệ (odds) để chiếc xe đó là
xe
4WD
tăng lên 2.09 lần.
- Hệ số của
cyl
(Số xi-lanh):
- Hệ số là
-0.1056
. Giá trị âm nhưng không có ý
nghĩa thống kê ở mức 5% (p-value = 0.661 > 0.05).
Xây dựng và
phân tích mô hình Hồi quy Probit
# Xây dựng mô hình Probit
probit_model <- glm(is_4wd ~ displ + cyl,
data = mpg_model_data,
family = binomial(link = "probit"))
# Xem kết quả
summary(probit_model)
##
## Call:
## glm(formula = is_4wd ~ displ + cyl, family = binomial(link = "probit"),
## data = mpg_model_data)
##
## Coefficients:
## Estimate Std. Error z value Pr(>|z|)
## (Intercept) -1.37030 0.36683 -3.736 0.000187 ***
## displ 0.42691 0.18580 2.298 0.021581 *
## cyl -0.04788 0.14594 -0.328 0.742878
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## (Dispersion parameter for binomial family taken to be 1)
##
## Null deviance: 321.03 on 233 degrees of freedom
## Residual deviance: 289.29 on 231 degrees of freedom
## AIC: 295.29
##
## Number of Fisher Scoring iterations: 5
Diễn giải kết quả mô hình Probit:
- Hệ số của
displ
(Dung tích động cơ):
- Hệ số là
0.4269
. Giá trị này dương và có ý nghĩa thống
kê (p-value = 0.0001 < 0.05).
- Diễn giải: Nếu số xi-lanh không đổi thì khi dung
tích động cơ tăng 1 lít, z-score dự
đoán xác suất xe là
4WD
tăng lên 0.4269 đơn
vị.
- Hệ số của
cyl
(Số xi-lanh):
- Hệ số là
-0.0478
. Giá trị âm nhưng không có ý
nghĩa thống kê ở mức 5% (p-value = 0.7428 > 0.05).
So sánh hai
mô hình
Cả hai mô hình đều cho cùng một kết luận: dung tích động cơ
(displ
) là yếu tố dự báo quan trọng cho việc một chiếc xe
có phải là 4WD
hay không. Chúng ta có thể so sánh trực tiếp
xác suất dự đoán từ hai mô hình.
# Lấy xác suất dự đoán từ hai mô hình
mpg_model_data$pred_logit <- predict(logit_model, type = "response")
mpg_model_data$pred_probit <- predict(probit_model, type = "response")
# Vẽ biểu đồ so sánh
ggplot(mpg_model_data, aes(x = pred_logit, y = pred_probit)) +
geom_point(alpha = 0.5) +
geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
labs(
title = "So sánh xác suất dự đoán giữa mô hình Logit và Probit",
x = "Xác suất dự đoán từ mô hình Logistic",
y = "Xác suất dự đoán từ mô hình Probit"
) +
theme_minimal()

Kết luận:
Biểu đồ cho thấy các điểm dữ liệu nằm rất sát đường chéo màu đỏ,
chứng tỏ xác suất dự đoán từ hai mô hình gần như tương đương nhau.
