Tên: Mai Huy
MSSV: 43.01.104.065
Số thứ tự: 08
1) Bagging
# Cài thư viện Random Forest
install.packages("randomForest")
# Load thư viện random forest
library(randomForest)
randomForest 4.6-14
Type rfNews() to see new features/changes/bug fixes.
# Load thư viện Mass
library(MASS)
# Load thư viện tree
library(tree)
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed (1)
# CHia random tập train với số lượng quan sát được chia đôi trong dữ liệu Boston
train = sample(1:nrow(Boston), nrow(Boston)/2)
# Tạo mô hình randomforest để dự đoan giá trị medv là biến đầu ra và lấy tất cả các biến còn lại làm biến đầu vào trong tập train đã chia của dữ liệu Boston
bag.boston = randomForest(medv~.,data=Boston,subset =
train, mtry = 13,importance =TRUE)
- mtry =13: có 13 yếu tố đầu vào được sử dụng cho mỗi lúc phân chia cây
- importance =TRUE: Xuất ra độ quan trọng các biến
# Thông tin mô hình vừa xây dựng
bag.boston
Call:
randomForest(formula = medv ~ ., data = Boston, mtry = 13, importance = TRUE, subset = train)
Type of random forest: regression
Number of trees: 500
No. of variables tried at each split: 13
Mean of squared residuals: 11.33119
% Var explained: 85.26
- Loại mô hình : Regression (ước tính giá trị)
- Số lượng biến mỗi lần phân chia nhánh : 13
- Trung bình bình phương residual của tập train là 11.33119
- Tỉ lệ dự đoán chính xác của out-of-bag cho tập train là 85.26
# Đưa ra dự đoán trên tập test nằm ngoài tập train, biến yhat.bag trả về các giá trị dự đoán trên tập test
yhat.bag = predict(bag.boston,newdata=Boston[-train,])
# Trích xuất kết quả giá trị output medv thật của tập test
boston.test = Boston[-train , "medv"]
# Hiển thị biểu đồ phân tán với cột x là giá trị được dự đoán và cột y là giá trị thật của tập test
plot(yhat.bag, boston.test)
# Gốc toạ độ được chọn 0 ở trục hoành, 1 ở trục tung
abline(0,1)

# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.bag-boston.test)^2)
[1] 23.4579
MSE của tập test là 23.4579
# Tạo mô hình randomforest để dự đoan giá trị medv là biến đầu ra và lấy tất cả các biến còn lại làm biến đầu vào trong tập train đã chia của dữ liệu Boston
bag.boston=randomForest(medv~.,data=Boston,subset=train, mtry=13,ntree=25)
- mtry =13: có 13 yếu tố đầu vào được sử dụng cho mỗi lúc phân chia cây
- ntree = 25: số lượng cây là 25
# Đưa ra dự đoán trên tập test nằm ngoài tập train, biến yhat.bag trả về các giá trị dự đoán trên tập test
yhat.bag = predict(bag.boston,newdata=Boston[-train,])
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.bag-boston.test)^2)
[1] 22.99145
MSE của tập test là 22.99145
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Tạo mô hình randomforest để dự đoan giá trị medv là biến đầu ra và lấy tất cả các biến còn lại làm biến đầu vào trong tập train đã chia của dữ liệu Boston
rf.boston=randomForest(medv~.,data=Boston,subset=train,mtry=6,importance=TRUE)
- mtry =6 : có 6 yếu tố đầu vào được sử dụng cho mỗi lúc phân chia cây
- importance =TRUE: Xuất ra độ quan trọng các biến
# Đưa ra dự đoán trên tập test nằm ngoài tập train, biến yhat.bag trả về các giá trị dự đoán trên tập test
yhat.rf = predict(rf.boston,newdata=Boston[-train,])
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.rf-boston.test)^2)
[1] 19.62021
MSE của tập test là 19.62021
# Hiển thị mức độ quan trọng của các biến
importance(rf.boston)
%IncMSE IncNodePurity
crim 16.697017 1076.08786
zn 3.625784 88.35342
indus 4.968621 609.53356
chas 1.061432 52.21793
nox 13.518179 709.87339
rm 32.343305 7857.65451
age 13.272498 612.21424
dis 9.032477 714.94674
rad 2.878434 95.80598
tax 9.118801 364.92479
ptratio 8.467062 823.93341
black 7.579482 275.62272
lstat 27.129817 6027.63740
%IncMSE là mức độ quan trọng của biến dựa trên sự giảm trung bình trong độ chính xác dự đoán được đưa ra từ lớp out of bag
IncNodePurity là tổng các giá trị giảm trong các node được chia, của tất cả các cây
# Plot biểu đồ thể hiện độ quan trọng của các biến
varImpPlot(rf.boston)

2) Booting
# Load thư viện gbm
library(gbm)
Loaded gbm 2.1.5
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Tạo mô hình hồi quy ổng quan boosting với biến đầu ra là medv, biến đầu vào là tất cả các biến còn lại, với số lượng cây là 5000, độ sâu tối đa của cây là 4, mô hình theo phân phối gaussian
boost.boston=gbm(medv~.,data=Boston[train,],distribution="gaussian",n.trees=5000,interaction.depth=4)

Hàm summary() cho chúng ta một bảng và 1 biểu đồ cho biết mức độ ảnh hưởng của các biến, ta thấy biến rm có mức độ ảnh hưởng cao nhất là 43.9919329
#Biểu đồ phân tán của các biến dữ liệu với các dữ liệu cột được chia thành cửa sổ 1x2 bằng cách sử dụng hàm mfrow=c(1,2)
par(mfrow=c(1,2))
# Biểu đồ biểu diễn mức độ ảnh hưởng của biến rm
plot(boost.boston,i="rm")

# Biểu đồ biểu diễn mức độ ảnh hưởng của biến lstat
plot(boost.boston,i="lstat")

# Tiến hành dự đoán tập test nằm ngoài tập train với số lượng cây = 5000
yhat.boost=predict(boost.boston,newdata=Boston[-train,],n.trees=5000)
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.boost-boston.test)^2)
[1] 18.84709
MSE của tập test là 18.84709
# Tạo mô hình hồi quy ổng quan boosting với biến đầu ra là medv, biến đầu vào là tất cả các biến còn lại
boost.boston=gbm(medv~.,data=Boston[train,],distribution="gaussian",n.trees=5000,interaction.depth=4,shrinkage=0.2,verbose=F)
- Mô hình có số lượng cây là 5000, phân phối gaussian, độ sâu thấp nhất là 4, learning rate mỗi cây là 0.2, verbose = F: không in ra quá trình huấn luyện mô hình
# Tiến hành dự đoán tập test nằm ngoài tập train với số lượng cây = 5000
yhat.boost=predict(boost.boston,newdata=Boston[-train,],n.trees=5000)
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.boost-boston.test)^2)
[1] 18.33455
MSE của tập test là 18.33455
