Tên: Mai Huy

MSSV: 43.01.104.065

Số thứ tự: 08

1) Bagging

# Cài thư viện Random Forest
install.packages("randomForest")
# Load thư viện random forest
library(randomForest)
randomForest 4.6-14
Type rfNews() to see new features/changes/bug fixes.
# Load thư viện Mass
library(MASS)
# Load thư viện tree
library(tree)
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed (1)
# CHia random tập train với số lượng quan sát được chia đôi trong dữ liệu Boston
train = sample(1:nrow(Boston), nrow(Boston)/2)
# Tạo mô hình randomforest để dự đoan giá trị medv là biến đầu ra và lấy tất cả các biến còn lại làm biến đầu vào trong tập train đã chia của dữ liệu Boston
bag.boston = randomForest(medv~.,data=Boston,subset =
train, mtry = 13,importance =TRUE)
# Thông tin mô hình vừa xây dựng
bag.boston

Call:
 randomForest(formula = medv ~ ., data = Boston, mtry = 13, importance = TRUE,      subset = train) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 13

          Mean of squared residuals: 11.33119
                    % Var explained: 85.26
# Đưa ra dự đoán trên tập test nằm ngoài tập train, biến yhat.bag trả về các giá trị dự đoán trên tập test
yhat.bag = predict(bag.boston,newdata=Boston[-train,])
# Trích xuất kết quả giá trị output medv thật của tập test
boston.test = Boston[-train , "medv"]
# Hiển thị biểu đồ phân tán với cột x là giá trị được dự đoán và cột y là giá trị thật của tập test
plot(yhat.bag, boston.test)
# Gốc toạ độ được chọn 0 ở trục hoành, 1 ở trục tung
abline(0,1)

# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.bag-boston.test)^2)
[1] 23.4579

MSE của tập test là 23.4579

# Tạo mô hình randomforest để dự đoan giá trị medv là biến đầu ra và lấy tất cả các biến còn lại làm biến đầu vào trong tập train đã chia của dữ liệu Boston
bag.boston=randomForest(medv~.,data=Boston,subset=train, mtry=13,ntree=25)
# Đưa ra dự đoán trên tập test nằm ngoài tập train, biến yhat.bag trả về các giá trị dự đoán trên tập test
yhat.bag = predict(bag.boston,newdata=Boston[-train,])
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.bag-boston.test)^2)
[1] 22.99145

MSE của tập test là 22.99145

# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Tạo mô hình randomforest để dự đoan giá trị medv là biến đầu ra và lấy tất cả các biến còn lại làm biến đầu vào trong tập train đã chia của dữ liệu Boston
rf.boston=randomForest(medv~.,data=Boston,subset=train,mtry=6,importance=TRUE)
# Đưa ra dự đoán trên tập test nằm ngoài tập train, biến yhat.bag trả về các giá trị dự đoán trên tập test
yhat.rf = predict(rf.boston,newdata=Boston[-train,])
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.rf-boston.test)^2)
[1] 19.62021

MSE của tập test là 19.62021

# Hiển thị mức độ quan trọng của các biến
importance(rf.boston)
          %IncMSE IncNodePurity
crim    16.697017    1076.08786
zn       3.625784      88.35342
indus    4.968621     609.53356
chas     1.061432      52.21793
nox     13.518179     709.87339
rm      32.343305    7857.65451
age     13.272498     612.21424
dis      9.032477     714.94674
rad      2.878434      95.80598
tax      9.118801     364.92479
ptratio  8.467062     823.93341
black    7.579482     275.62272
lstat   27.129817    6027.63740

%IncMSE là mức độ quan trọng của biến dựa trên sự giảm trung bình trong độ chính xác dự đoán được đưa ra từ lớp out of bag

IncNodePurity là tổng các giá trị giảm trong các node được chia, của tất cả các cây

# Plot biểu đồ thể hiện độ quan trọng của các biến
varImpPlot(rf.boston)

2) Booting

# Load thư viện gbm
library(gbm)
Loaded gbm 2.1.5
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Tạo mô hình hồi quy ổng quan boosting với biến đầu ra là medv, biến đầu vào là tất cả các biến còn lại, với số lượng cây là 5000, độ sâu tối đa của cây là 4, mô hình theo phân phối gaussian
boost.boston=gbm(medv~.,data=Boston[train,],distribution="gaussian",n.trees=5000,interaction.depth=4)

Hàm summary() cho chúng ta một bảng và 1 biểu đồ cho biết mức độ ảnh hưởng của các biến, ta thấy biến rm có mức độ ảnh hưởng cao nhất là 43.9919329

#Biểu đồ phân tán của các biến  dữ liệu với các dữ liệu cột được chia thành cửa sổ 1x2 bằng cách sử dụng hàm mfrow=c(1,2) 
par(mfrow=c(1,2))
# Biểu đồ biểu diễn mức độ ảnh hưởng của biến rm
plot(boost.boston,i="rm")

# Biểu đồ biểu diễn mức độ ảnh hưởng của biến lstat
plot(boost.boston,i="lstat")

# Tiến hành dự đoán tập test nằm ngoài tập train với số lượng cây = 5000
yhat.boost=predict(boost.boston,newdata=Boston[-train,],n.trees=5000)
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.boost-boston.test)^2)
[1] 18.84709

MSE của tập test là 18.84709

# Tạo mô hình hồi quy ổng quan boosting với biến đầu ra là medv, biến đầu vào là tất cả các biến còn lại
boost.boston=gbm(medv~.,data=Boston[train,],distribution="gaussian",n.trees=5000,interaction.depth=4,shrinkage=0.2,verbose=F)
# Tiến hành dự đoán tập test nằm ngoài tập train với số lượng cây = 5000
yhat.boost=predict(boost.boston,newdata=Boston[-train,],n.trees=5000)
# Tính Mean Squared Error (MSE) giữa giá trị dự đoán và giá trị thật
mean((yhat.boost-boston.test)^2)
[1] 18.33455

MSE của tập test là 18.33455

