Tên: Mai Huy

MSSV: 43.01.104.065

Số thứ tự: 08

a) Create a training set containing a random sample of 800 observations, and a test set containing the remaining observations.

# Load thư viện ISLR
library(ISLR)
# set.seed dùng để tái tạo những vector random giống nhau theo tương ứng với giá trị được đưa vào hàm seed
set.seed(1)
# Sử dụng 800 quan sát được random để sử dụng cho tập train 
train <- sample(1:nrow(OJ), 800)
# Chia tập train có 800 quan sát
OJ.train <- OJ[train, ]
# Tập Test bao gồm số lượng quan sát còn lại
OJ.test <- OJ[-train, ]

b) Fit a tree to the training data, with “Purchase” as the response and the other variables except for “Buy” as predictors.Use the “summary()” function to produce summary statistics about the tree, and describe the results obtained. What is the training error rate ? How many terminal nodes does the tree have ?

# Load thư viện dữ liệu tree
library(tree)
# Hàm tree dùng để tạo ra cây phân loại giúp dự đoán giá trị đầu ra là biến Purchase và sử dụng tất cả các biến còn lại làm giá trị đầu vào trong tập train
tree.oj <- tree(Purchase ~ ., data = OJ.train)
# Phân tích dữ liệu cây phân loại vừa được tạo
summary(tree.oj)

Classification tree:
tree(formula = Purchase ~ ., data = OJ.train)
Variables actually used in tree construction:
[1] "LoyalCH"       "PriceDiff"     "SpecialCH"     "ListPriceDiff" "PctDiscMM"    
Number of terminal nodes:  9 
Residual mean deviance:  0.7432 = 587.8 / 791 
Misclassification error rate: 0.1588 = 127 / 800 

Hàm summary liệt kê các biến internal nodes trong cây bao gồm các biến : “LoyalCH” “PriceDiff” “SpecialCH” “ListPriceDiff” “PctDiscMM” , cho biết số lượng terminal nodes = 9, độ lệch chuẩn trung bình = 0.7432, tỉ lệ sai số huấn luyện = 0.1588

c) Type in the name of the tree object in order to get a detailed text output. Pick one of the terminal nodes, and interpret the information displayed.

# Hiển thị kết quả output tương ứng với mỗi nhánh của cây
tree.oj
node), split, n, deviance, yval, (yprob)
      * denotes terminal node

 1) root 800 1073.00 CH ( 0.60625 0.39375 )  
   2) LoyalCH < 0.5036 365  441.60 MM ( 0.29315 0.70685 )  
     4) LoyalCH < 0.280875 177  140.50 MM ( 0.13559 0.86441 )  
       8) LoyalCH < 0.0356415 59   10.14 MM ( 0.01695 0.98305 ) *
       9) LoyalCH > 0.0356415 118  116.40 MM ( 0.19492 0.80508 ) *
     5) LoyalCH > 0.280875 188  258.00 MM ( 0.44149 0.55851 )  
      10) PriceDiff < 0.05 79   84.79 MM ( 0.22785 0.77215 )  
        20) SpecialCH < 0.5 64   51.98 MM ( 0.14062 0.85938 ) *
        21) SpecialCH > 0.5 15   20.19 CH ( 0.60000 0.40000 ) *
      11) PriceDiff > 0.05 109  147.00 CH ( 0.59633 0.40367 ) *
   3) LoyalCH > 0.5036 435  337.90 CH ( 0.86897 0.13103 )  
     6) LoyalCH < 0.764572 174  201.00 CH ( 0.73563 0.26437 )  
      12) ListPriceDiff < 0.235 72   99.81 MM ( 0.50000 0.50000 )  
        24) PctDiscMM < 0.196197 55   73.14 CH ( 0.61818 0.38182 ) *
        25) PctDiscMM > 0.196197 17   12.32 MM ( 0.11765 0.88235 ) *
      13) ListPriceDiff > 0.235 102   65.43 CH ( 0.90196 0.09804 ) *
     7) LoyalCH > 0.764572 261   91.20 CH ( 0.95785 0.04215 ) *

Ta chọn node thứ 8, là một terminal node do có đánh dấu ’*’. Node này có tiêu chuẩn chia nhánh là LoyalCH < 0.0356415, số lượng quan sát trong nhánh là 59, sai số cross-validation = 10.14, kết quả dự đoán của nhánh này là MM. Ngoài ra còn cho biết thêm là ít hơn 2% số quan sát có giá trị CH, còn lại là 98% mang giá trị MM.

d) Create a plot of the tree, and interpret the results.

# Hiển thị cấu trúc cây 
plot(tree.oj)
# Hiển thị nhãn tên các node của cây, biến pretty = 0 là để bao gồm tên loại cho bất cứ giá trị định tính nào so với việc chỉ hiển thị các kí tự chữ cái cho mỗi loại
text(tree.oj, pretty = 0)

Chúng ta thấy rằng biến quan trọng nhất góp phần vào việc dự đoán Purchase là biến LoyalCH khi mà ngay từ nhánh đầu tiên đòi hỏi sự phân biệt mức độ trung thành nhãn hiệu của khách hàng. Ngoài ra, top 3 nodes có chứa bien1 “LoyalCH”

e) Predict the response on the test data, and produce aconfusion matrix comparing the test labels to the predicted test labels. What is the test error rate?

# Tiến hành dự đoán trên tập test
tree.pred <- predict(tree.oj, OJ.test, type = "class")
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(tree.pred, OJ.test$Purchase)
         
tree.pred  CH  MM
       CH 160  38
       MM   8  64

Tỉ lệ số lượng quan sát được phân loại đúng trong tập test là : (160+64)/270 = 0.8296

=> Tỉ lệ phân loại sai là khoảng 17%

f) Apply the cv.tree() function to the training set in order to determine the optimal tree size.

# Hàm cv.tree thực hiện cross-validation để quyết định độ phức tạp tối ưu cho cây.
cv.oj <- cv.tree(tree.oj, FUN = prune.misclass)
#Hàm cv.tree() cho biết số lượng terminal nodes của mỗi cây, cũng như là tỉ lệ phân loại lỗi và giá trị của tham số chi phí phức (k) được sử dụng
cv.oj
$size
[1] 9 8 7 4 2 1

$dev
[1] 150 150 149 158 172 315

$k
[1]       -Inf   0.000000   3.000000   4.333333  10.500000 151.000000

$method
[1] "misclass"

attr(,"class")
[1] "prune"         "tree.sequence"

Chúng ta thấy rằng với 7 terminal nodes thì sai số lỗi cross-validation ra được là thấp nhất = 149

g) Produce a plot with tree size on the x-axis and cross-validated classification error rate on the y-axis.

# Hiển thị đồ thị phân tán với x là số lượng terminal nodes và y là sai số lỗi cross validation
plot(cv.oj$size, cv.oj$dev, type = "b", xlab = "Tree size", ylab = "Deviance")

h) Which tree size corresponds to the lowest cross-validated classification error rate?

Chúng ta thấy rằng với 7 terminal nodes thì sai số lỗi cross-validation ra được là thấp nhất

Produce a pruned tree corresponding to the optimal tree size obtained using cross-validation. If cross-validation does not lead to selection of a pruned tree, then create a pruned tree with five terminal nodes.

# Thực hiện cắt tỉa cây xuống còn 7 nodes
prune.oj <- prune.misclass(tree.oj, best = 7)
# Hiển thị cấu trúc cây đã được tỉa còn 7 nodes
plot(prune.oj)
# Hiển thị nhãn tên các node của cây, biến pretty = 0 là để bao gồm tên loại cho bất cứ giá trị định tính nào so với việc chỉ hiển thị các kí tự chữ cái cho mỗi loại
text(prune.oj, pretty = 0)

j) Compare the training error rates between the pruned and unpruned trees. Which is higher?

# Phân tích dữ liệu cây phân loại gốc chưa cắt tỉa
summary(tree.oj)

Classification tree:
tree(formula = Purchase ~ ., data = OJ.train)
Variables actually used in tree construction:
[1] "LoyalCH"       "PriceDiff"     "SpecialCH"     "ListPriceDiff" "PctDiscMM"    
Number of terminal nodes:  9 
Residual mean deviance:  0.7432 = 587.8 / 791 
Misclassification error rate: 0.1588 = 127 / 800 
# Phân tích dữ liệu cây phân loại đã được cắt tỉa
summary(prune.oj)

Classification tree:
snip.tree(tree = tree.oj, nodes = c(4L, 10L))
Variables actually used in tree construction:
[1] "LoyalCH"       "PriceDiff"     "ListPriceDiff" "PctDiscMM"    
Number of terminal nodes:  7 
Residual mean deviance:  0.7748 = 614.4 / 793 
Misclassification error rate: 0.1625 = 130 / 800 

Tỉ lệ phân loại sai của cây được cắt tỉa là cao hơn (0.1625 so với 0.1588)

k) Compare the test error rates between the pruned and unpruned trees. Which is higher?

# Tiến hành dự đoán trên tập test dùng mô hình là cây đã được cắt tỉa
prune.pred <- predict(prune.oj, OJ.test, type = "class")
# Dùng hàm table() để tạo ra một ma trận để quyết định xem có bao nhiêu quan sát được phân loại đúng, bao nhiêu bị phân loại sai
table(prune.pred, OJ.test$Purchase)
          
prune.pred  CH  MM
        CH 160  36
        MM   8  66

Tỉ lệ số lượng quan sát được phân loại đúng trong tập test là : (160+66)/270 = 0.837

=> Tỉ lệ phân loại sai của mô hình cây được cắt tỉa là khoảng 16.3%, nhỏ hơn so với mô hình cây gốc chưa được cắt tỉa là 17%

