Tên: Mai Huy
MSSV: 43.01.104.065
Số thứ tự: 08
# Load thư viện ISLR chứa tập dữ liệu Auto
library(ISLR)
# attach dùng để khiến cho những biến feature trong dữ liệu có sẵn trong Rstudio theo tên
attach(Auto)
The following objects are masked from Auto (pos = 3):
acceleration, cylinders, displacement, horsepower, mpg, name, origin, weight, year
Câu a) Tạo ra cột mpg01 trong dữ liệu Auto
# Tạo một vecto gồm 392 giá trị = 0 tương trị SỐ lượng quan sát trong dữ liệu AUto
mpg01 <- rep(0, length(mpg))
#Chuyển các thành phần sang = 1 khi giá trị mpg > mức trung vị của nó
mpg01[mpg > median(mpg)] <- 1
# Tạo 1 dữ liệu Auto mới khi thêm biến mpg01 vào
Auto <- data.frame(Auto, mpg01)
Câu b) Mô tả mối tương giữa biến mpg01 và các biến khác
# Ma trận tương quan giữa các biến khi bỏ đi biến định tính Name
cor(Auto[, -9])
mpg cylinders displacement horsepower weight acceleration year origin mpg01
mpg 1.0000000 -0.7776175 -0.8051269 -0.7784268 -0.8322442 0.4233285 0.5805410 0.5652088 0.8369392
cylinders -0.7776175 1.0000000 0.9508233 0.8429834 0.8975273 -0.5046834 -0.3456474 -0.5689316 -0.7591939
displacement -0.8051269 0.9508233 1.0000000 0.8972570 0.9329944 -0.5438005 -0.3698552 -0.6145351 -0.7534766
horsepower -0.7784268 0.8429834 0.8972570 1.0000000 0.8645377 -0.6891955 -0.4163615 -0.4551715 -0.6670526
weight -0.8322442 0.8975273 0.9329944 0.8645377 1.0000000 -0.4168392 -0.3091199 -0.5850054 -0.7577566
acceleration 0.4233285 -0.5046834 -0.5438005 -0.6891955 -0.4168392 1.0000000 0.2903161 0.2127458 0.3468215
year 0.5805410 -0.3456474 -0.3698552 -0.4163615 -0.3091199 0.2903161 1.0000000 0.1815277 0.4299042
origin 0.5652088 -0.5689316 -0.6145351 -0.4551715 -0.5850054 0.2127458 0.1815277 1.0000000 0.5136984
mpg01 0.8369392 -0.7591939 -0.7534766 -0.6670526 -0.7577566 0.3468215 0.4299042 0.5136984 1.0000000
# Ma trận biểu đồ phân tán khi bỏ đi biến định tính Name
pairs(Auto[, -9])

# Hiển thị các biểu đồ ở cửa sổ 2x3
par(mfrow=c(2,3))
# Tạo ra biểu đồ hộp với x= mpg01 và y= cylinders
boxplot(cylinders ~ mpg01, data = Auto, main = "Cylinders vs mpg01")
# Tạo ra biểu đồ hộp với x= mpg01 và y= displacement
boxplot(displacement ~ mpg01, data = Auto, main = "Displacement vs mpg01")
# Tạo ra biểu đồ hộp với x= mpg01 và y= horsepower
boxplot(horsepower ~ mpg01, data = Auto, main = "Horsepower vs mpg01")
# Tạo ra biểu đồ hộp với x= mpg01 và y= weight
boxplot(weight ~ mpg01, data = Auto, main = "Weight vs mpg01")
# Tạo ra biểu đồ hộp với x= mpg01 và y= acceleration
boxplot(acceleration ~ mpg01, data = Auto, main = "Acceleration vs mpg01")
# Tạo ra biểu đồ hộp với x= mpg01 và y= year
boxplot(year ~ mpg01, data = Auto, main = "Year vs mpg01")

CHúng ta thấy rằng có mối liên hệ giữa biến mpg01 với các biến cylinders, displacement, horsepower, weight do chỉ số tương quan của mpg01 với các biến này tương đối lớn.
Câu c) Chia tập train và test
#Vecto train gồm 392 phần từ tương ướng với tập dữ liệu quan sát, dòng nào trong data có số năm chẵn sẽ trả về true, còn lại trả về false
train <- (year %% 2 == 0)
# Tập train là tập trong dữ liệu chứa năm chẵn
Auto.train <- Auto[train, ]
# Tập test là tập trong dữ liệu chứa năm lẻ
Auto.test <- Auto[!train, ]
# Tạo ra một vector gồm 182 giá trị mpg01 = 1 hoặc 0 cho những năm lẻ
mpg01.test <- mpg01[!train]
Câu d) Áp dụng LDA
# Load thư viện MASS
library(MASS)
# Phân tích khác biệt tuyến tính với 4 biến đầu vào có nhiều mối quan hệ với mpg01 nhất là cylinders, weight, displacement, horsepower trong tập dữ liệu của những năm chẵn
fit.lda <- lda(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto, subset = train)
# Thông tin khác biệt tuyến tính
fit.lda
Call:
lda(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto,
subset = train)
Prior probabilities of groups:
0 1
0.4571429 0.5428571
Group means:
cylinders weight displacement horsepower
0 6.812500 3604.823 271.7396 133.14583
1 4.070175 2314.763 111.6623 77.92105
Coefficients of linear discriminants:
LD1
cylinders -0.6741402638
weight -0.0011465750
displacement 0.0004481325
horsepower 0.0059035377
Kết quả hàm lda() chỉ ra rẳng 45.71% dữ liệu huấn luyện có mpg01=0
Đồng thời cho biết giá trị trung bình của mỗi nhóm biến đầu (cylinders, weight, displacement, horsepower) vào tương ứng với mỗi phân loại 1 và 0
Hàm lda() cũng cung cấp những hệ số phân biệt của các biến đầu vào , nếu -0.6741402638 x cylinders + -0.0011465750 x weight + 0.0004481325 x displacement + 0.0059035377 x horsepower lớn thì LDA sẽ dự đoán lượng khí gas cao (mpg01 = 1). Nếu nhỏ thì sẽ dự đoán lượng khí gas thấp (mpg01=0)
# Hàm predict dùng để dự đoán xác suất lượng khí gas cao (mpg01 = 1) với tập data truyền vào là tập test chỉ chứa các năm lẻ
pred.lda <- predict(fit.lda, Auto.test)
# Tên các thuộc tính trong lda.pred
names(pred.lda)
[1] "class" "posterior" "x"
class chứa dự đoán của LDA về khả năng lượng khí gas cao hay thấp cho 392 dòng dữ liệu của năm lẻ
posterior là xác suất hậu nghiệm, xác suất dự đoán lượng khí gas cao hay thấp cho 392 dòng dữ liệu của năm lẻ
x là hệ số khác biệt tuyết tính (linear discriminants)
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(pred.lda$class, mpg01.test)
mpg01.test
0 1
0 86 9
1 14 73
# Dự đoán %số dòng dự đoán sai
mean(pred.lda$class != mpg01.test)
[1] 0.1263736
CHúng ta kết luận là tỉ lệ dự đoán sai của LDA là khoảng 12,63%
Câu e) Áp dụng QDA
# Phân tích khác biệt bình phương với 4 biến đầu vào có nhiều mối quan hệ với mpg01 nhất là cylinders, weight, displacement, horsepower trong tập dữ liệu của những năm chẵn
fit.qda <- qda(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto, subset = train)
fit.qda
Call:
qda(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto,
subset = train)
Prior probabilities of groups:
0 1
0.4571429 0.5428571
Group means:
cylinders weight displacement horsepower
0 6.812500 3604.823 271.7396 133.14583
1 4.070175 2314.763 111.6623 77.92105
Kết quả hàm qda() chỉ ra rẳng 45.71% dữ liệu huấn luyện có mpg01=0 tương tự như LDA
Đồng thời cho biết giá trị trung bình của mỗi nhóm biến đầu (cylinders, weight, displacement, horsepower) vào tương ứng với mỗi phân loại 1 và 0
# Hàm predict dùng để dự đoán xác suất lượng khí gas cao (mpg01 = 1) với tập data truyền vào là tập test chỉ chứa các năm lẻ
pred.qda <- predict(fit.qda, Auto.test)
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(pred.qda$class, mpg01.test)
mpg01.test
0 1
0 89 13
1 11 69
# Dự đoán %số dòng dự đoán sai
mean(pred.qda$class != mpg01.test)
[1] 0.1318681
CHúng ta kết luận là tỉ lệ dự đoán sai của QDA là khoảng 13,186%
Câu f) Áp dụng Logistic Regression
Chúng ta sẽ fit mô hình logistic Regression để dự đoán biến đầu ra mpg01 và sử dụng các biến đầu vào là cylinders, weight, displacement và horsepower. Hàm glm() và đưa vào biến family =binomial dùng để chạy 1 mô hình Logistic Regression.
# Fit mô hình Logistic Regresion để dự đoán biến đầu ra mpg01 trong dữ liệu AUto chỉ chứa các năm chẵn
fit.glm <- glm(mpg01 ~ cylinders + weight + displacement + horsepower, data = Auto, family = binomial, subset = train)
# Hàm predict dùng để dự đoán xác suất lượng khí gas cao (mpg01 = 1), type = "response" để xuất ra xác xuất theo dạng P(Y = 1|X)
probs <- predict(fit.glm, Auto.test, type = "response")
# Tạo một vecto gồm 392 thành phần = 0 tương ứng với số quan sát của những năm lẻ
pred.glm <- rep(0, length(probs))
#Chuyển các thành phần sang 1 khi xác suất dự đoán lớn hơn 0.5
pred.glm[probs > 0.5] <- 1
table(pred.glm, mpg01.test)
mpg01.test
pred.glm 0 1
0 89 11
1 11 71
# Dự đoán %số dòng dự đoán sai
mean(pred.glm != mpg01.test)
[1] 0.1208791
CHúng ta kết luận là tỉ lệ dự đoán sai của Logistic Regression là khoảng 12,08%
