Data Science Module

Topic 11B: Machine Learning II

Example R code solutions for the Data Science Module Computer Lab 11B, which uses the caret R package (Kuhn et al. 2021) and Portuguese wine data obtained from UCI Machine Learning Repository (2009) (originally collected by Cortez et al. (2009)), are presented below.

This computer lab is designed to run alongside the content in the Introduction to Machine Learning in R supplement. It might be helpful to have this material open as you look through these solutions.

1 Preparations

1.1 Load Required Packages

# Specify required packages
ml_packages <- c("caret", "gbm", "kernlab", "magrittr", "randomForest", "rpart.plot")
# Install missing packages
install.packages(setdiff(ml_packages, rownames(installed.packages())))
# Load all packages
lapply(ml_packages, library, character.only = TRUE)

1.2 Wine Data

No answer required.

1.3 Aim

The R code below should have been run:

red_wine <- read.csv(file = "winequality_red.csv", header = T)
red_wine$quality <- as.factor(red_wine$quality)
centre_scale <- preProcess(red_wine[, -12], 
                           method = c("center", "scale"))
red_wine_updated <- predict(centre_scale, red_wine)
set.seed(1650)
wine_train_index <- createDataPartition(red_wine_updated$quality, 
                                        p = 0.8, 
                                        list = FALSE, times = 1) 
red_wine_train <- red_wine_updated[wine_train_index, ]
red_wine_validate <- red_wine_updated[-wine_train_index, ]

2 Machine Learning Models

Please note that for all the models in this section, we run the set.seed(1650) command prior to training the model, so that the results discussed here are accurate regardless of the number of times this document is generated. If you do not set a seed prior to training your models, your results may appear slightly different.

2.1

set.seed(1650)
red_wine_dec_tree <- train(quality ~ .,
                           data = red_wine_train,
                           method = "rpart")
red_wine_dec_tree

## CART 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   cp          Accuracy   Kappa    
##   0.01221167  0.5737107  0.3033509
##   0.02374491  0.5657458  0.2697084
##   0.25237449  0.4719068  0.1116919
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was cp = 0.01221167.

2.2 Tuning Parameters

Example R code is provided below:

set.seed(1650)
red_wine_dec_tree_tuned <- train(quality ~.,
                                 data = red_wine_train,
                                 method = "rpart", 
                                 tuneGrid = expand.grid(cp = seq(0.001, 0.01, 0.001))
                                 )

2.2.1

red_wine_dec_tree_tuned

## CART 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   cp     Accuracy   Kappa    
##   0.001  0.5646999  0.3079162
##   0.002  0.5708469  0.3163015
##   0.003  0.5707549  0.3145723
##   0.004  0.5719805  0.3150799
##   0.005  0.5772597  0.3207074
##   0.006  0.5763066  0.3148442
##   0.007  0.5778125  0.3147239
##   0.008  0.5758359  0.3104433
##   0.009  0.5719269  0.3024742
##   0.010  0.5706992  0.2998836
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was cp = 0.007.

We observe that by varying the cp value, we have been able to achieve a slightly higher accuracy of 57.78%, for a cp value of 0.007.

2.3 Resampling Methods

2.3.1

tr_control <- trainControl(method = "cv",
                           number = 10)

set.seed(1650)
red_wine_dec_tree_tuned_cv <- train(quality ~ .,
                                    data = red_wine_train,
                                    trControl = tr_control,
                                    method = "rpart",
                                    tuneGrid = expand.grid(cp = seq(0.001, 0.01, 0.001))
                                    )
red_wine_dec_tree_tuned_cv

## CART 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold) 
## Summary of sample sizes: 1153, 1154, 1153, 1153, 1154, 1155, ... 
## Resampling results across tuning parameters:
## 
##   cp     Accuracy   Kappa    
##   0.001  0.5779864  0.3280322
##   0.002  0.5936118  0.3491612
##   0.003  0.5865987  0.3380346
##   0.004  0.5874105  0.3362951
##   0.005  0.5765459  0.3164578
##   0.006  0.5773392  0.3155442
##   0.007  0.5687819  0.2978743
##   0.008  0.5601876  0.2816416
##   0.009  0.5570626  0.2726912
##   0.010  0.5633128  0.2799621
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was cp = 0.002.

Note 10 resamples are specified here for the cv method so that computation time isn’t too long.

2.4 Decision Tree Models

The best accuracy achieved by each of our Decision Tree models is presented below:

red_wine_dec_tree: 57.37% accuracy, cp = 0.01221167
red_wine_dec_tree_tuned: 57.78% accuracy, cp = 0.007
red_wine_dec_tree_tuned_cv: 59.36% accuracy, cp = 0.002

The tuned Decision Tree with the cv resampling method produced the best results. The top accuracy of 59.36% is not exceptional, but by adjusting our code we have been able to increase accuracy by roughly 2%, which is worthwhile.

2.4.1

ggplot(red_wine_dec_tree)

ggplot(red_wine_dec_tree_tuned)

ggplot(red_wine_dec_tree_tuned_cv)

We can see that the best results are achieved when the complexity parameter is small.

2.4.2

rpart.plot(red_wine_dec_tree$finalModel)

rpart.plot(red_wine_dec_tree_tuned$finalModel)

rpart.plot(red_wine_dec_tree_tuned_cv$finalModel)

Only the first two decision tree visualisations are informative - the red_wine_dec_tree_tuned_cv plot has too many branches to quickly and easily assess. We can see that the models are limited to only being able to predict quality scores of 5,6 or 7. This explains their poor performances.

2.5 Random Forest

set.seed(1650)
red_wine_rf <- train(quality ~ .,
                       data = red_wine_train,
                       method = "rf")
red_wine_rf

## Random Forest 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   mtry  Accuracy   Kappa    
##    2    0.6700665  0.4633930
##    6    0.6627082  0.4551261
##   11    0.6582344  0.4497119
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 2.

2.5.1

The best accuracy achieved by the red_wine_rf random forest model is 67%, for an mtry value of 2. This is already much better than our best decision tree model!

2.5.2

set.seed(1650)
red_wine_rf_tuned <- train(quality ~ .,
                           data = red_wine_train,
                           method = "rf",
                           tuneGrid = expand.grid(mtry = c(1,3))
                           )
red_wine_rf_tuned

## Random Forest 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   mtry  Accuracy   Kappa    
##   1     0.6646680  0.4513419
##   3     0.6669872  0.4600541
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 3.

2.5.3

set.seed(1650)
red_wine_rf_tuned_cv <- train(quality ~ .,
                              data = red_wine_train,
                              trControl = tr_control,
                              method = "rf",
                              tuneGrid = expand.grid(mtry = c(1:3))
                              )
red_wine_rf_tuned_cv

## Random Forest 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold) 
## Summary of sample sizes: 1153, 1154, 1153, 1153, 1154, 1155, ... 
## Resampling results across tuning parameters:
## 
##   mtry  Accuracy   Kappa    
##   1     0.7012984  0.5123231
##   2     0.6958356  0.5053334
##   3     0.7020552  0.5177138
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was mtry = 3.

2.5.4

The best accuracy achieved by each of our Random Forest models is presented below:

red_wine_rf: 67% accuracy, mtry = 2
red_wine_rf_tuned: 66.70% accuracy, mtry = 3
red_wine_rf_tuned_cv: 70.02% accuracy, mtry = 3

The tuned Random Forest model with the cv resampling method produced the best results. The top accuracy of 70.02%, which is much better than any of our previous results.

2.5.5

ggplot(red_wine_rf)

dotPlot(varImp(red_wine_rf))

The feature variables considered most important were alcohol, followed by volatile.acidity and total.sulfur.dioxide.

2.5.6

ggplot(red_wine_rf_tuned)

ggplot(red_wine_rf_tuned_cv)

dotPlot(varImp(red_wine_rf_tuned))

dotPlot(varImp(red_wine_rf_tuned_cv))

Here we can see that the models’ accuracies depended on different numbers of randomly selected predictors (feature variables) being selected, for the different adjustments being made (tuning parameters or changing the resampling method).

The alcohol variable remained the single most important feature variable to include in a model, while free.sulfur.dioxide was the least important feature variable across all models.

2.6 Gradient Boosting Machine Models

set.seed(1650)
red_wine_boosted <- train(quality ~ .,
                          data = red_wine_train,
                          method = "gbm",
                          verbose = FALSE)
red_wine_boosted

## Stochastic Gradient Boosting 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   interaction.depth  n.trees  Accuracy   Kappa    
##   1                   50      0.6049492  0.3554880
##   1                  100      0.6103872  0.3703725
##   1                  150      0.6081707  0.3688512
##   2                   50      0.6133524  0.3748142
##   2                  100      0.6178042  0.3853569
##   2                  150      0.6160044  0.3838989
##   3                   50      0.6195430  0.3865898
##   3                  100      0.6225492  0.3934048
##   3                  150      0.6250933  0.3986685
## 
## Tuning parameter 'shrinkage' was held constant at a value of 0.1
## 
## Tuning parameter 'n.minobsinnode' was held constant at a value of 10
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were n.trees = 150, interaction.depth =
##  3, shrinkage = 0.1 and n.minobsinnode = 10.

2.6.1

The best accuracy achieved by the red_wine_boosted model is 62.51%, when interaction depth was 3 and the number of trees was 150.

2.6.2

set.seed(1650)
red_wine_boosted_tuned <- train(quality ~ .,
                           data = red_wine_train,
                           method = "gbm",
                           tuneGrid = expand.grid(interaction.depth = 3:6,
                                                  n.trees = seq(50, 200, 50),
                                                  shrinkage = 0.1,
                                                  n.minobsinnode = 10),
                           verbose = FALSE)
red_wine_boosted_tuned

## Stochastic Gradient Boosting 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   interaction.depth  n.trees  Accuracy   Kappa    
##   3                   50      0.6198300  0.3862094
##   3                  100      0.6213315  0.3914632
##   3                  150      0.6283839  0.4033432
##   3                  200      0.6290806  0.4059713
##   4                   50      0.6223524  0.3915968
##   4                  100      0.6266637  0.4001994
##   4                  150      0.6325701  0.4106020
##   4                  200      0.6331125  0.4120082
##   5                   50      0.6262532  0.3985373
##   5                  100      0.6320015  0.4094948
##   5                  150      0.6372771  0.4186823
##   5                  200      0.6411313  0.4249792
##   6                   50      0.6313038  0.4050127
##   6                  100      0.6391566  0.4204912
##   6                  150      0.6472912  0.4339037
##   6                  200      0.6475264  0.4345551
## 
## Tuning parameter 'shrinkage' was held constant at a value of 0.1
## 
## Tuning parameter 'n.minobsinnode' was held constant at a value of 10
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were n.trees = 200, interaction.depth =
##  6, shrinkage = 0.1 and n.minobsinnode = 10.

2.6.3

set.seed(1650)
red_wine_boosted_tuned_cv <- train(quality ~ .,
                           data = red_wine_train,
                           method = "gbm",
                           trControl = tr_control,
                           tuneGrid = expand.grid(interaction.depth = 3:6,
                                                  n.trees = seq(50, 200, 50),
                                                  shrinkage = 0.1,
                                                  n.minobsinnode = 10),
                           verbose = FALSE)
red_wine_boosted_tuned_cv

## Stochastic Gradient Boosting 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Cross-Validated (10 fold) 
## Summary of sample sizes: 1153, 1154, 1153, 1153, 1154, 1155, ... 
## Resampling results across tuning parameters:
## 
##   interaction.depth  n.trees  Accuracy   Kappa    
##   3                   50      0.6319423  0.4022170
##   3                  100      0.6334745  0.4082981
##   3                  150      0.6357999  0.4113483
##   3                  200      0.6459566  0.4290713
##   4                   50      0.6225426  0.3906675
##   4                  100      0.6365446  0.4180816
##   4                  150      0.6443999  0.4307405
##   4                  200      0.6412747  0.4280012
##   5                   50      0.6318631  0.4028686
##   5                  100      0.6467136  0.4322859
##   5                  150      0.6474641  0.4356158
##   5                  200      0.6537265  0.4461991
##   6                   50      0.6342495  0.4073552
##   6                  100      0.6490023  0.4356075
##   6                  150      0.6599035  0.4545666
##   6                  200      0.6607093  0.4557511
## 
## Tuning parameter 'shrinkage' was held constant at a value of 0.1
## 
## Tuning parameter 'n.minobsinnode' was held constant at a value of 10
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were n.trees = 200, interaction.depth =
##  6, shrinkage = 0.1 and n.minobsinnode = 10.

2.6.4

The best accuracy achieved by each of our Gradient Boosting Machine models is presented below:

red_wine_boosted: 62.51% accuracy, n.trees = 150, interaction.depth = 3
red_wine_boosted_tuned: 64.75% accuracy, n.trees = 200, interaction.depth = 6
red_wine_boosted_tuned_cv: 66.07% accuracy, n.trees = 200, interaction.depth = 6

The tuned Gradient Boosting Machine model with the cv resampling method produced the best results, for n.trees = 200 and interaction.depth = 6. The top accuracy of 66.07%, which is much better than the 62.51% accuracy achieved by the model with the default settings.

2.6.5

plot(red_wine_boosted)

plot(red_wine_boosted_tuned)

plot(red_wine_boosted_tuned_cv)

These graphs make it easy to see the best combination of tree depth and iterations to use. Generally, the larger the maximum tree depth, the more accurate the model was.

2.7 Additional Models

Example R code for the different machine learning models is provided below:

2.7.1 LDA

set.seed(1650)
red_wine_lda <- train(quality ~ .,
                      data = red_wine_train,
                      method = "lda")
red_wine_lda

## Linear Discriminant Analysis 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results:
## 
##   Accuracy   Kappa    
##   0.5943597  0.3549375

The best accuracy achieved by this method is 59.43%.

2.7.2 SVM

set.seed(1650)
red_wine_svm <- train(quality ~ .,
                      data = red_wine_train,
                      method = "svmLinear")
red_wine_svm

## Support Vector Machines with Linear Kernel 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results:
## 
##   Accuracy   Kappa    
##   0.5902292  0.3242403
## 
## Tuning parameter 'C' was held constant at a value of 1

The best accuracy achieved by this method is 59.02%.

2.7.3 kNN

set.seed(1650)
red_wine_knn <- train(quality ~ .,
                      data = red_wine_train,
                      method = "knn")
red_wine_knn

## k-Nearest Neighbors 
## 
## 1282 samples
##   11 predictor
##    6 classes: '3', '4', '5', '6', '7', '8' 
## 
## No pre-processing
## Resampling: Bootstrapped (25 reps) 
## Summary of sample sizes: 1282, 1282, 1282, 1282, 1282, 1282, ... 
## Resampling results across tuning parameters:
## 
##   k  Accuracy   Kappa    
##   5  0.5388836  0.2733503
##   7  0.5467209  0.2812282
##   9  0.5518291  0.2852813
## 
## Accuracy was used to select the optimal model using the largest value.
## The final value used for the model was k = 9.

The best accuracy achieved by this method is 55.18%, for \(k\) = 9.

3 Validating Results

No answer required.

3.1

Example code is provided below.
This is one way to check the predictive accuracies using the validation data.

For this check, we have chosen to use the models:

red_wine_dec_tree_tuned_cv
red_wine_rf_tuned_cv
red_wine_boosted_tuned_cv
red_wine_lda
red_wine_svm
red_wine_knn

validation_numbers <- dim(red_wine_validate)[1]

predict_dec_tree_tuned_cv <- predict(red_wine_dec_tree_tuned_cv, 
                                     newdata =red_wine_validate)

predict_rf_tuned_cv  <- predict(red_wine_rf_tuned_cv, 
                                newdata =red_wine_validate)

predict_boosted_tuned_cv <- predict(red_wine_boosted_tuned_cv, 
                                    newdata =red_wine_validate)

predict_lda <- predict(red_wine_lda, 
                       newdata =red_wine_validate)

predict_svm <- predict(red_wine_svm, 
                       newdata =red_wine_validate)

predict_knn <- predict(red_wine_knn, 
                       newdata =red_wine_validate)

dec_tree_tuned_cv_accuracy <- round(100*sum(predict_dec_tree_tuned_cv == red_wine_validate$quality) / validation_numbers, 2)

rf_tuned_cv_accuracy <- round(100*sum(predict_rf_tuned_cv == red_wine_validate$quality) / validation_numbers, 2)

boosted_tuned_cv_accuracy <- round(100*sum(predict_boosted_tuned_cv == red_wine_validate$quality) / validation_numbers, 2)

lda_accuracy <- round(100*sum(predict_lda == red_wine_validate$quality) / validation_numbers, 2)

svm_accuracy <- round(100*sum(predict_svm == red_wine_validate$quality) / validation_numbers, 2)

knn_accuracy <- round(100*sum(predict_knn == red_wine_validate$quality) / validation_numbers, 2)

dec_tree_tuned_cv_accuracy

## [1] 57.73

rf_tuned_cv_accuracy

## [1] 66.88

boosted_tuned_cv_accuracy

## [1] 62.15

lda_accuracy

## [1] 57.1

svm_accuracy

## [1] 55.21

knn_accuracy

## [1] 55.52

From these results, we can see that the model that performed best when provided with the validation data was the Random Forest model with the tuned parameters and the cv resampling method. This model achieved an accuracy of 66.88% using the validation data. This is a few percent less than the 70.02% accuracy the model achieved on the training data, but is still quite good.

4 Summarising Results

4.1

results_boot <- resamples(list(decision_tree = red_wine_dec_tree, 
                               decision_tree_tuned = red_wine_dec_tree_tuned,
                               random_forest = red_wine_rf, 
                               random_forest_tuned = red_wine_rf_tuned, 
                               gradient_boosted = red_wine_boosted, 
                               gradient_boosted_tuned = red_wine_boosted_tuned,
                               linear_disc_analysis = red_wine_lda,
                               support_vector_machine = red_wine_svm,
                               k_nearest_neighbours = red_wine_knn
                               )
                          )

results_cv <- resamples(list(decision_tree_tuned_cv = red_wine_dec_tree_tuned_cv,
                             random_forest_tuned_cv = red_wine_rf_tuned_cv,
                             gradient_boosted_tuned_cv = red_wine_boosted_tuned_cv
                             )
                        )

summary(results_boot)

## 
## Call:
## summary.resamples(object = results_boot)
## 
## Models: decision_tree, decision_tree_tuned, random_forest, random_forest_tuned, gradient_boosted, gradient_boosted_tuned, linear_disc_analysis, support_vector_machine, k_nearest_neighbours 
## Number of resamples: 25 
## 
## Accuracy 
##                             Min.   1st Qu.    Median      Mean   3rd Qu.
## decision_tree          0.5353319 0.5614407 0.5720430 0.5737107 0.5883621
## decision_tree_tuned    0.5354167 0.5578947 0.5819328 0.5778125 0.5953878
## random_forest          0.6493776 0.6615721 0.6666667 0.6700665 0.6783370
## random_forest_tuned    0.6465517 0.6568421 0.6646091 0.6669872 0.6710240
## gradient_boosted       0.5913978 0.6196581 0.6247241 0.6250933 0.6361656
## gradient_boosted_tuned 0.6158537 0.6353712 0.6427015 0.6475264 0.6622517
## linear_disc_analysis   0.5505376 0.5871965 0.5982340 0.5943597 0.6092437
## support_vector_machine 0.5268817 0.5761589 0.5897959 0.5902292 0.6021505
## k_nearest_neighbours   0.5031983 0.5320088 0.5545852 0.5518291 0.5664488
##                             Max. NA's
## decision_tree          0.6247241    0
## decision_tree_tuned    0.6120690    0
## random_forest          0.6966527    0
## random_forest_tuned    0.7032258    0
## gradient_boosted       0.6572052    0
## gradient_boosted_tuned 0.6857143    0
## linear_disc_analysis   0.6193416    0
## support_vector_machine 0.6260163    0
## k_nearest_neighbours   0.6004274    0
## 
## Kappa 
##                             Min.   1st Qu.    Median      Mean   3rd Qu.
## decision_tree          0.2520370 0.2891515 0.3081993 0.3033509 0.3189378
## decision_tree_tuned    0.2577697 0.2867525 0.3221000 0.3147239 0.3442703
## random_forest          0.4344375 0.4486099 0.4570372 0.4633930 0.4771286
## random_forest_tuned    0.4257512 0.4508698 0.4570846 0.4600541 0.4679275
## gradient_boosted       0.3485645 0.3793564 0.4000525 0.3986685 0.4133925
## gradient_boosted_tuned 0.3799589 0.4106077 0.4280093 0.4345551 0.4640305
## linear_disc_analysis   0.2903666 0.3414276 0.3594764 0.3549375 0.3750534
## support_vector_machine 0.2371308 0.2945116 0.3234587 0.3242403 0.3575354
## k_nearest_neighbours   0.2197641 0.2606944 0.2799916 0.2852813 0.3089489
##                             Max. NA's
## decision_tree          0.3814905    0
## decision_tree_tuned    0.3683173    0
## random_forest          0.5110820    0
## random_forest_tuned    0.5179211    0
## gradient_boosted       0.4489159    0
## gradient_boosted_tuned 0.4933856    0
## linear_disc_analysis   0.3906424    0
## support_vector_machine 0.3932027    0
## k_nearest_neighbours   0.3707461    0

summary(results_cv)

## 
## Call:
## summary.resamples(object = results_cv)
## 
## Models: decision_tree_tuned_cv, random_forest_tuned_cv, gradient_boosted_tuned_cv 
## Number of resamples: 10 
## 
## Accuracy 
##                                Min.   1st Qu.    Median      Mean   3rd Qu.
## decision_tree_tuned_cv    0.5390625 0.5747638 0.5921506 0.5936118 0.6191406
## random_forest_tuned_cv    0.6562500 0.6803546 0.7004300 0.7020552 0.7304688
## gradient_boosted_tuned_cv 0.6171875 0.6491188 0.6588337 0.6607093 0.6783703
##                                Max. NA's
## decision_tree_tuned_cv    0.6434109    0
## random_forest_tuned_cv    0.7421875    0
## gradient_boosted_tuned_cv 0.6953125    0
## 
## Kappa 
##                                Min.   1st Qu.    Median      Mean   3rd Qu.
## decision_tree_tuned_cv    0.2610568 0.3201660 0.3444430 0.3491612 0.3882586
## random_forest_tuned_cv    0.4379802 0.4828595 0.5202281 0.5177138 0.5578036
## gradient_boosted_tuned_cv 0.3799308 0.4373075 0.4571198 0.4557511 0.4821160
##                                Max. NA's
## decision_tree_tuned_cv    0.4319900    0
## random_forest_tuned_cv    0.5840063    0
## gradient_boosted_tuned_cv 0.5103002    0

4.2

dotplot(results_boot)

dotplot(results_cv)

4.3

We trained Decision Tree, Random Forest, Gradient Boosting Machine, Linear Discriminant Analysis, Support Vector Machine and k-Nearest-Neigbour machine learning models on the Portuguese red wine data winequality_red.csv.

The Random Forest models had the best overall accuracy based on the training data, at 70.02% with tuned parameters and the cv resampling method. This was supported by the validation data test, for which the selected Random Forest model achieved an accuracy score of 66.88%.

Based on our results, we would recommend using the Random Forest machine learning model for this data. We do note however that the model can take some time to run.

It is worth noting here that there are other more advanced models which we haven’t tried that could lead to higher accuracy scores.

That’s everything, well done.

References

Cortez, P., A. Cerdeira, F. Almeida, T. Matos, and J. Reis. 2009. “Modeling Wine Preferences by Data Mining from Physicochemical Properties.” Decision Support Systems 47 (4): 547–53.

Kuhn, M., J. Wing, S. Weston, A. Williams, C. Keefer, A. Engelhardt, T. Cooper, et al. 2021. caret: Classification and Regression Training. https://cran.r-project.org/web/packages/caret/index.html.

Thulin, M. 2021. Modern Statistics with R: From Wrangling and Exploring Data to Inference and Predictive Modelling.

UCI Machine Learning Repository. 2009. “Wine Quality Data Set[.csv File].” 2009. https://archive.ics.uci.edu/ml/datasets/Wine+Quality.

These notes have been prepared by Rupert Kuveke. Please note that some of the content in these notes has been developed from content in Thulin (2021). The copyright for the material in these notes resides with the authors named above, with the Department of Mathematical and Physical Sciences and with La Trobe University. Copyright in this work is vested in La Trobe University including all La Trobe University branding and naming. Unless otherwise stated, material within this work is licensed under a Creative Commons Attribution-Non Commercial-Non Derivatives License BY-NC-ND.

LS0tDQp0aXRsZTogIlNUTTEwMDE6IENvbXB1dGVyIExhYiAxMUIgU29sdXRpb25zIg0Kb3V0cHV0Og0KICBib29rZG93bjo6aHRtbF9kb2N1bWVudDI6IA0KICAgIHRvYzogdHJ1ZQ0KICAgIHRvY19mbG9hdDogdHJ1ZQ0KICAgIGNvZGVfZG93bmxvYWQ6IHRydWUNCiAgICB0aGVtZTogcmVhZGFibGUNCiAgICBjb2RlX2ZvbGRpbmc6IHNob3cNCmJpYmxpb2dyYXBoeTogU1RNMTAwMV9EU19DTF9yZWZlcmVuY2VzLmJpYiANCmxpbmstY2l0YXRpb25zOiB5ZXMNCi0tLQ0KDQo8c3R5bGU+DQojVE9DIHsNCiAgYmFja2dyb3VuZDogdXJsKCJodHRwczovL3d3dy5sYXRyb2JlLmVkdS5hdS9fbWVkaWEvbGEtdHJvYmUtYXBpL3Y1L2ltZy9sb2dvLnN2ZyIpOw0KICBiYWNrZ3JvdW5kLXNpemU6IGNvbnRhaW47DQogIHBhZGRpbmctdG9wOiA4MHB4ICFpbXBvcnRhbnQ7DQogIGJhY2tncm91bmQtcmVwZWF0OiBuby1yZXBlYXQ7DQp9DQo8L3N0eWxlPg0KDQojIyMgRGF0YSBTY2llbmNlIE1vZHVsZSB7LX0NCg0KIyMjIFRvcGljIDExQjogTWFjaGluZSBMZWFybmluZyBJSSB7LX0NCg0KPGJyPg0KDQpFeGFtcGxlIFIgY29kZSBzb2x1dGlvbnMgZm9yIHRoZSBbRGF0YSBTY2llbmNlIE1vZHVsZSBDb21wdXRlciBMYWIgMTFCXShodHRwczovL3JwdWJzLmNvbS9MVFVfU1RNMTAwMS9EU01DTDExX1MpLCB3aGljaCB1c2VzIHRoZSBgY2FyZXRgIFIgcGFja2FnZSBbQGNhcmV0XSBhbmQgUG9ydHVndWVzZSB3aW5lIGRhdGEgb2J0YWluZWQgZnJvbSBAVUNJV2luZSAob3JpZ2luYWxseSBjb2xsZWN0ZWQgYnkgQHdpbmUpLCBhcmUgcHJlc2VudGVkIGJlbG93Lg0KDQpUaGlzIGNvbXB1dGVyIGxhYiBpcyBkZXNpZ25lZCB0byBydW4gYWxvbmdzaWRlIHRoZSBjb250ZW50IGluIHRoZSBbSW50cm9kdWN0aW9uIHRvIE1hY2hpbmUgTGVhcm5pbmcgaW4gUiBzdXBwbGVtZW50XShodHRwczovL2Jvb2tkb3duLm9yZy9yZWhrL3N0bTEwMDFfZHNtX3QxX2ludHJvZHVjdGlvbl90b19tYWNoaW5lX2xlYXJuaW5nX2luX3IvKS4gSXQgbWlnaHQgYmUgaGVscGZ1bCB0byBoYXZlIHRoaXMgbWF0ZXJpYWwgb3BlbiBhcyB5b3UgbG9vayB0aHJvdWdoIHRoZXNlIHNvbHV0aW9ucy4NCg0KPGJyPg0KDQojIFByZXBhcmF0aW9ucyB7I3ByZXB9DQoNCiMjIExvYWQgUmVxdWlyZWQgUGFja2FnZXMgeyNsb2FkfQ0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGluY2x1ZGUgPSBGfQ0KIyBTcGVjaWZ5IHJlcXVpcmVkIHBhY2thZ2VzDQptbF9wYWNrYWdlcyA8LSBjKCJjYXJldCIsICJnYm0iLCAia2VybmxhYiIsICJtYWdyaXR0ciIsICJyYW5kb21Gb3Jlc3QiLCAicnBhcnQucGxvdCIpDQojIEluc3RhbGwgbWlzc2luZyBwYWNrYWdlcw0KaW5zdGFsbC5wYWNrYWdlcyhzZXRkaWZmKG1sX3BhY2thZ2VzLCByb3duYW1lcyhpbnN0YWxsZWQucGFja2FnZXMoKSkpKQ0KIyBMb2FkIGFsbCBwYWNrYWdlcw0KbGFwcGx5KG1sX3BhY2thZ2VzLCBsaWJyYXJ5LCBjaGFyYWN0ZXIub25seSA9IFRSVUUpDQpgYGANCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBGLCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGfQ0KIyBTcGVjaWZ5IHJlcXVpcmVkIHBhY2thZ2VzDQptbF9wYWNrYWdlcyA8LSBjKCJjYXJldCIsICJnYm0iLCAia2VybmxhYiIsICJtYWdyaXR0ciIsICJyYW5kb21Gb3Jlc3QiLCAicnBhcnQucGxvdCIpDQojIEluc3RhbGwgbWlzc2luZyBwYWNrYWdlcw0KaW5zdGFsbC5wYWNrYWdlcyhzZXRkaWZmKG1sX3BhY2thZ2VzLCByb3duYW1lcyhpbnN0YWxsZWQucGFja2FnZXMoKSkpKQ0KIyBMb2FkIGFsbCBwYWNrYWdlcw0KbGFwcGx5KG1sX3BhY2thZ2VzLCBsaWJyYXJ5LCBjaGFyYWN0ZXIub25seSA9IFRSVUUpDQpgYGANCg0KIyMgV2luZSBEYXRhDQoNCk5vIGFuc3dlciByZXF1aXJlZC4NCg0KIyMgQWltDQoNClRoZSBSIGNvZGUgYmVsb3cgc2hvdWxkIGhhdmUgYmVlbiBydW46DQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgaW5jbHVkZSA9IEYsIGNhY2hlID0gVH0NCnJlZF93aW5lIDwtIHJlYWQuY3N2KGZpbGUgPSAiZGF0YS93aW5lcXVhbGl0eV9yZWQuY3N2IiwgaGVhZGVyID0gVCkNCnJlZF93aW5lJHF1YWxpdHkgPC0gYXMuZmFjdG9yKHJlZF93aW5lJHF1YWxpdHkpDQpjZW50cmVfc2NhbGUgPC0gcHJlUHJvY2VzcyhyZWRfd2luZVssIC0xMl0sIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgbWV0aG9kID0gYygiY2VudGVyIiwgInNjYWxlIikpDQpyZWRfd2luZV91cGRhdGVkIDwtIHByZWRpY3QoY2VudHJlX3NjYWxlLCByZWRfd2luZSkNCnNldC5zZWVkKDE2NTApDQp3aW5lX3RyYWluX2luZGV4IDwtIGNyZWF0ZURhdGFQYXJ0aXRpb24ocmVkX3dpbmVfdXBkYXRlZCRxdWFsaXR5LCANCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBwID0gMC44LCANCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBsaXN0ID0gRkFMU0UsIHRpbWVzID0gMSkgDQpyZWRfd2luZV90cmFpbiA8LSByZWRfd2luZV91cGRhdGVkW3dpbmVfdHJhaW5faW5kZXgsIF0NCnJlZF93aW5lX3ZhbGlkYXRlIDwtIHJlZF93aW5lX3VwZGF0ZWRbLXdpbmVfdHJhaW5faW5kZXgsIF0NCmBgYA0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IEYsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEZ9DQpyZWRfd2luZSA8LSByZWFkLmNzdihmaWxlID0gIndpbmVxdWFsaXR5X3JlZC5jc3YiLCBoZWFkZXIgPSBUKQ0KcmVkX3dpbmUkcXVhbGl0eSA8LSBhcy5mYWN0b3IocmVkX3dpbmUkcXVhbGl0eSkNCmNlbnRyZV9zY2FsZSA8LSBwcmVQcm9jZXNzKHJlZF93aW5lWywgLTEyXSwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICBtZXRob2QgPSBjKCJjZW50ZXIiLCAic2NhbGUiKSkNCnJlZF93aW5lX3VwZGF0ZWQgPC0gcHJlZGljdChjZW50cmVfc2NhbGUsIHJlZF93aW5lKQ0Kc2V0LnNlZWQoMTY1MCkNCndpbmVfdHJhaW5faW5kZXggPC0gY3JlYXRlRGF0YVBhcnRpdGlvbihyZWRfd2luZV91cGRhdGVkJHF1YWxpdHksIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIHAgPSAwLjgsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGxpc3QgPSBGQUxTRSwgdGltZXMgPSAxKSANCnJlZF93aW5lX3RyYWluIDwtIHJlZF93aW5lX3VwZGF0ZWRbd2luZV90cmFpbl9pbmRleCwgXQ0KcmVkX3dpbmVfdmFsaWRhdGUgPC0gcmVkX3dpbmVfdXBkYXRlZFstd2luZV90cmFpbl9pbmRleCwgXQ0KYGBgDQoNCg0KIyBNYWNoaW5lIExlYXJuaW5nIE1vZGVscyB7I2ZpdH0NCg0KUGxlYXNlIG5vdGUgdGhhdCBmb3IgYWxsIHRoZSBtb2RlbHMgaW4gdGhpcyBzZWN0aW9uLCB3ZSBydW4gdGhlIGBzZXQuc2VlZCgxNjUwKWAgY29tbWFuZCBwcmlvciB0byB0cmFpbmluZyB0aGUgbW9kZWwsIHNvIHRoYXQgdGhlIHJlc3VsdHMgZGlzY3Vzc2VkIGhlcmUgYXJlIGFjY3VyYXRlIHJlZ2FyZGxlc3Mgb2YgdGhlIG51bWJlciBvZiB0aW1lcyB0aGlzIGRvY3VtZW50IGlzIGdlbmVyYXRlZC4gSWYgeW91IGRvIG5vdCBzZXQgYSBzZWVkIHByaW9yIHRvIHRyYWluaW5nIHlvdXIgbW9kZWxzLCB5b3VyIHJlc3VsdHMgbWF5IGFwcGVhciBzbGlnaHRseSBkaWZmZXJlbnQuDQoNCiMjDQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgY2FjaGUgPSBUfQ0Kc2V0LnNlZWQoMTY1MCkNCnJlZF93aW5lX2RlY190cmVlIDwtIHRyYWluKHF1YWxpdHkgfiAuLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgZGF0YSA9IHJlZF93aW5lX3RyYWluLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgbWV0aG9kID0gInJwYXJ0IikNCnJlZF93aW5lX2RlY190cmVlDQpgYGANCg0KIyMgVHVuaW5nIFBhcmFtZXRlcnMNCg0KRXhhbXBsZSBSIGNvZGUgaXMgcHJvdmlkZWQgYmVsb3c6DQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgY2FjaGUgPSBUfQ0Kc2V0LnNlZWQoMTY1MCkNCnJlZF93aW5lX2RlY190cmVlX3R1bmVkIDwtIHRyYWluKHF1YWxpdHkgfi4sDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBkYXRhID0gcmVkX3dpbmVfdHJhaW4sDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBtZXRob2QgPSAicnBhcnQiLCANCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIHR1bmVHcmlkID0gZXhwYW5kLmdyaWQoY3AgPSBzZXEoMC4wMDEsIDAuMDEsIDAuMDAxKSkNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICkNCmBgYA0KDQojIyMNCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBULCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGfQ0KcmVkX3dpbmVfZGVjX3RyZWVfdHVuZWQNCmBgYA0KDQpXZSBvYnNlcnZlIHRoYXQgYnkgdmFyeWluZyB0aGUgYGNwYCB2YWx1ZSwgd2UgaGF2ZSBiZWVuIGFibGUgdG8gYWNoaWV2ZSBhIHNsaWdodGx5IGhpZ2hlciBhY2N1cmFjeSBvZiA1Ny43OCUsIGZvciBhIGBjcGAgdmFsdWUgb2YgMC4wMDcuDQoNCiMjIFJlc2FtcGxpbmcgTWV0aG9kcw0KDQojIyMNCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBULCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGLCBjYWNoZSA9IFR9DQp0cl9jb250cm9sIDwtIHRyYWluQ29udHJvbChtZXRob2QgPSAiY3YiLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgbnVtYmVyID0gMTApDQoNCnNldC5zZWVkKDE2NTApDQpyZWRfd2luZV9kZWNfdHJlZV90dW5lZF9jdiA8LSB0cmFpbihxdWFsaXR5IH4gLiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIHRyQ29udHJvbCA9IHRyX2NvbnRyb2wsDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBtZXRob2QgPSAicnBhcnQiLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgdHVuZUdyaWQgPSBleHBhbmQuZ3JpZChjcCA9IHNlcSgwLjAwMSwgMC4wMSwgMC4wMDEpKQ0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgKQ0KcmVkX3dpbmVfZGVjX3RyZWVfdHVuZWRfY3YNCmBgYA0KDQoqTm90ZSAxMCByZXNhbXBsZXMgYXJlIHNwZWNpZmllZCBoZXJlIGZvciB0aGUgYGN2YCBtZXRob2Qgc28gdGhhdCBjb21wdXRhdGlvbiB0aW1lIGlzbid0IHRvbyBsb25nLioNCg0KIyMgRGVjaXNpb24gVHJlZSBNb2RlbHMNCg0KVGhlIGJlc3QgYWNjdXJhY3kgYWNoaWV2ZWQgYnkgZWFjaCBvZiBvdXIgRGVjaXNpb24gVHJlZSBtb2RlbHMgaXMgcHJlc2VudGVkIGJlbG93Og0KDQoqIGByZWRfd2luZV9kZWNfdHJlZWA6IDU3LjM3JSBhY2N1cmFjeSwgYGNwYCA9IDAuMDEyMjExNjcNCiogYHJlZF93aW5lX2RlY190cmVlX3R1bmVkYDogNTcuNzglIGFjY3VyYWN5LCBgY3BgID0gMC4wMDcNCiogYHJlZF93aW5lX2RlY190cmVlX3R1bmVkX2N2YDogNTkuMzYlIGFjY3VyYWN5LCBgY3BgID0gMC4wMDINCg0KVGhlIHR1bmVkIERlY2lzaW9uIFRyZWUgd2l0aCB0aGUgYGN2YCByZXNhbXBsaW5nIG1ldGhvZCBwcm9kdWNlZCB0aGUgYmVzdCByZXN1bHRzLiBUaGUgdG9wIGFjY3VyYWN5IG9mIDU5LjM2JSBpcyBub3QgZXhjZXB0aW9uYWwsIGJ1dCBieSBhZGp1c3Rpbmcgb3VyIGNvZGUgd2UgaGF2ZSBiZWVuIGFibGUgdG8gaW5jcmVhc2UgYWNjdXJhY3kgYnkgcm91Z2hseSAyJSwgd2hpY2ggaXMgd29ydGh3aGlsZS4NCg0KIyMjDQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgZmlnLmRpbSA9IGMoNiw2KX0NCmdncGxvdChyZWRfd2luZV9kZWNfdHJlZSkNCmdncGxvdChyZWRfd2luZV9kZWNfdHJlZV90dW5lZCkNCmdncGxvdChyZWRfd2luZV9kZWNfdHJlZV90dW5lZF9jdikNCmBgYA0KDQpXZSBjYW4gc2VlIHRoYXQgdGhlIGJlc3QgcmVzdWx0cyBhcmUgYWNoaWV2ZWQgd2hlbiB0aGUgY29tcGxleGl0eSBwYXJhbWV0ZXIgaXMgc21hbGwuDQoNCiMjIw0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEZ9DQpycGFydC5wbG90KHJlZF93aW5lX2RlY190cmVlJGZpbmFsTW9kZWwpDQpycGFydC5wbG90KHJlZF93aW5lX2RlY190cmVlX3R1bmVkJGZpbmFsTW9kZWwpDQpycGFydC5wbG90KHJlZF93aW5lX2RlY190cmVlX3R1bmVkX2N2JGZpbmFsTW9kZWwpDQpgYGANCg0KT25seSB0aGUgZmlyc3QgdHdvIGRlY2lzaW9uIHRyZWUgdmlzdWFsaXNhdGlvbnMgYXJlIGluZm9ybWF0aXZlIC0gdGhlIGByZWRfd2luZV9kZWNfdHJlZV90dW5lZF9jdmAgcGxvdCBoYXMgdG9vIG1hbnkgYnJhbmNoZXMgdG8gcXVpY2tseSBhbmQgZWFzaWx5IGFzc2Vzcy4gV2UgY2FuIHNlZSB0aGF0IHRoZSBtb2RlbHMgYXJlIGxpbWl0ZWQgdG8gb25seSBiZWluZyBhYmxlIHRvIHByZWRpY3QgcXVhbGl0eSBzY29yZXMgb2YgNSw2IG9yIDcuIFRoaXMgZXhwbGFpbnMgdGhlaXIgcG9vciBwZXJmb3JtYW5jZXMuDQoNCiMjIFJhbmRvbSBGb3Jlc3QNCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBULCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGLCBjYWNoZSA9IFR9DQpzZXQuc2VlZCgxNjUwKQ0KcmVkX3dpbmVfcmYgPC0gdHJhaW4ocXVhbGl0eSB+IC4sDQogICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICAgbWV0aG9kID0gInJmIikNCnJlZF93aW5lX3JmDQpgYGANCg0KIyMjDQoNClRoZSBiZXN0IGFjY3VyYWN5IGFjaGlldmVkIGJ5IHRoZSBgcmVkX3dpbmVfcmZgIHJhbmRvbSBmb3Jlc3QgbW9kZWwgaXMgNjclLCBmb3IgYW4gYG10cnlgIHZhbHVlIG9mIDIuIFRoaXMgaXMgYWxyZWFkeSBtdWNoIGJldHRlciB0aGFuIG91ciBiZXN0IGRlY2lzaW9uIHRyZWUgbW9kZWwhDQoNCiMjIw0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGNhY2hlID0gVH0NCnNldC5zZWVkKDE2NTApDQpyZWRfd2luZV9yZl90dW5lZCA8LSB0cmFpbihxdWFsaXR5IH4gLiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgIG1ldGhvZCA9ICJyZiIsDQogICAgICAgICAgICAgICAgICAgICAgICAgICB0dW5lR3JpZCA9IGV4cGFuZC5ncmlkKG10cnkgPSBjKDEsMykpDQogICAgICAgICAgICAgICAgICAgICAgICAgICApDQpyZWRfd2luZV9yZl90dW5lZA0KYGBgDQoNCiMjIw0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGNhY2hlID0gVH0NCnNldC5zZWVkKDE2NTApDQpyZWRfd2luZV9yZl90dW5lZF9jdiA8LSB0cmFpbihxdWFsaXR5IH4gLiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIHRyQ29udHJvbCA9IHRyX2NvbnRyb2wsDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICBtZXRob2QgPSAicmYiLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgdHVuZUdyaWQgPSBleHBhbmQuZ3JpZChtdHJ5ID0gYygxOjMpKQ0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgKQ0KcmVkX3dpbmVfcmZfdHVuZWRfY3YNCmBgYA0KDQojIyMNCg0KVGhlIGJlc3QgYWNjdXJhY3kgYWNoaWV2ZWQgYnkgZWFjaCBvZiBvdXIgUmFuZG9tIEZvcmVzdCBtb2RlbHMgaXMgcHJlc2VudGVkIGJlbG93Og0KDQoqIGByZWRfd2luZV9yZmA6IDY3JSBhY2N1cmFjeSwgYG10cnlgID0gMg0KKiBgcmVkX3dpbmVfcmZfdHVuZWRgOiA2Ni43MCUgYWNjdXJhY3ksIGBtdHJ5YCA9IDMNCiogYHJlZF93aW5lX3JmX3R1bmVkX2N2YDogNzAuMDIlIGFjY3VyYWN5LCBgbXRyeWAgPSAzDQoNClRoZSB0dW5lZCBSYW5kb20gRm9yZXN0IG1vZGVsIHdpdGggdGhlIGBjdmAgcmVzYW1wbGluZyBtZXRob2QgcHJvZHVjZWQgdGhlIGJlc3QgcmVzdWx0cy4gVGhlIHRvcCBhY2N1cmFjeSBvZiA3MC4wMiUsIHdoaWNoIGlzIG11Y2ggYmV0dGVyIHRoYW4gYW55IG9mIG91ciBwcmV2aW91cyByZXN1bHRzLg0KDQojIyMNCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBULCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGLCBmaWcuZGltID0gYyg4LDYpLCBjYWNoZSA9IFR9DQpnZ3Bsb3QocmVkX3dpbmVfcmYpDQpkb3RQbG90KHZhckltcChyZWRfd2luZV9yZikpDQpgYGANCg0KVGhlIGZlYXR1cmUgdmFyaWFibGVzIGNvbnNpZGVyZWQgbW9zdCBpbXBvcnRhbnQgd2VyZSBgYWxjb2hvbGAsIGZvbGxvd2VkIGJ5IGB2b2xhdGlsZS5hY2lkaXR5YCBhbmQgYHRvdGFsLnN1bGZ1ci5kaW94aWRlYC4NCg0KIyMjDQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgZmlnLmRpbSA9IGMoOCw2KSwgY2FjaGUgPSBUfQ0KZ2dwbG90KHJlZF93aW5lX3JmX3R1bmVkKQ0KZ2dwbG90KHJlZF93aW5lX3JmX3R1bmVkX2N2KQ0KZG90UGxvdCh2YXJJbXAocmVkX3dpbmVfcmZfdHVuZWQpKQ0KZG90UGxvdCh2YXJJbXAocmVkX3dpbmVfcmZfdHVuZWRfY3YpKQ0KYGBgDQoNCkhlcmUgd2UgY2FuIHNlZSB0aGF0IHRoZSBtb2RlbHMnIGFjY3VyYWNpZXMgZGVwZW5kZWQgb24gZGlmZmVyZW50IG51bWJlcnMgb2YgcmFuZG9tbHkgc2VsZWN0ZWQgcHJlZGljdG9ycyAoZmVhdHVyZSB2YXJpYWJsZXMpIGJlaW5nIHNlbGVjdGVkLCBmb3IgdGhlIGRpZmZlcmVudCBhZGp1c3RtZW50cyBiZWluZyBtYWRlICh0dW5pbmcgcGFyYW1ldGVycyBvciBjaGFuZ2luZyB0aGUgcmVzYW1wbGluZyBtZXRob2QpLg0KDQpUaGUgYGFsY29ob2xgIHZhcmlhYmxlIHJlbWFpbmVkIHRoZSBzaW5nbGUgbW9zdCBpbXBvcnRhbnQgZmVhdHVyZSB2YXJpYWJsZSB0byBpbmNsdWRlIGluIGEgbW9kZWwsIHdoaWxlIGBmcmVlLnN1bGZ1ci5kaW94aWRlYCB3YXMgdGhlIGxlYXN0IGltcG9ydGFudCBmZWF0dXJlIHZhcmlhYmxlIGFjcm9zcyBhbGwgbW9kZWxzLg0KDQoNCiMjIEdyYWRpZW50IEJvb3N0aW5nIE1hY2hpbmUgTW9kZWxzDQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgY2FjaGUgPSBUfQ0Kc2V0LnNlZWQoMTY1MCkNCnJlZF93aW5lX2Jvb3N0ZWQgPC0gdHJhaW4ocXVhbGl0eSB+IC4sDQogICAgICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgbWV0aG9kID0gImdibSIsDQogICAgICAgICAgICAgICAgICAgICAgICAgIHZlcmJvc2UgPSBGQUxTRSkNCnJlZF93aW5lX2Jvb3N0ZWQNCmBgYA0KDQojIyMNCg0KVGhlIGJlc3QgYWNjdXJhY3kgYWNoaWV2ZWQgYnkgdGhlIGByZWRfd2luZV9ib29zdGVkYCBtb2RlbCBpcyA2Mi41MSUsIHdoZW4gaW50ZXJhY3Rpb24gZGVwdGggd2FzIDMgYW5kIHRoZSBudW1iZXIgb2YgdHJlZXMgd2FzIDE1MC4NCg0KIyMjIA0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGNhY2hlID0gVH0NCnNldC5zZWVkKDE2NTApDQpyZWRfd2luZV9ib29zdGVkX3R1bmVkIDwtIHRyYWluKHF1YWxpdHkgfiAuLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgZGF0YSA9IHJlZF93aW5lX3RyYWluLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgbWV0aG9kID0gImdibSIsDQogICAgICAgICAgICAgICAgICAgICAgICAgICB0dW5lR3JpZCA9IGV4cGFuZC5ncmlkKGludGVyYWN0aW9uLmRlcHRoID0gMzo2LA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBuLnRyZWVzID0gc2VxKDUwLCAyMDAsIDUwKSwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgc2hyaW5rYWdlID0gMC4xLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBuLm1pbm9ic2lubm9kZSA9IDEwKSwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgIHZlcmJvc2UgPSBGQUxTRSkNCnJlZF93aW5lX2Jvb3N0ZWRfdHVuZWQNCmBgYA0KDQojIyMNCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBULCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGLCBjYWNoZSA9IFR9DQpzZXQuc2VlZCgxNjUwKQ0KcmVkX3dpbmVfYm9vc3RlZF90dW5lZF9jdiA8LSB0cmFpbihxdWFsaXR5IH4gLiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgIG1ldGhvZCA9ICJnYm0iLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgdHJDb250cm9sID0gdHJfY29udHJvbCwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgIHR1bmVHcmlkID0gZXhwYW5kLmdyaWQoaW50ZXJhY3Rpb24uZGVwdGggPSAzOjYsDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG4udHJlZXMgPSBzZXEoNTAsIDIwMCwgNTApLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBzaHJpbmthZ2UgPSAwLjEsDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG4ubWlub2JzaW5ub2RlID0gMTApLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgdmVyYm9zZSA9IEZBTFNFKQ0KcmVkX3dpbmVfYm9vc3RlZF90dW5lZF9jdg0KYGBgDQoNCiMjIw0KDQpUaGUgYmVzdCBhY2N1cmFjeSBhY2hpZXZlZCBieSBlYWNoIG9mIG91ciBHcmFkaWVudCBCb29zdGluZyBNYWNoaW5lIG1vZGVscyBpcyBwcmVzZW50ZWQgYmVsb3c6DQoNCiogYHJlZF93aW5lX2Jvb3N0ZWRgOiA2Mi41MSUgYWNjdXJhY3ksIGBuLnRyZWVzYCA9IDE1MCwgYGludGVyYWN0aW9uLmRlcHRoYCA9IDMNCiogYHJlZF93aW5lX2Jvb3N0ZWRfdHVuZWRgOiA2NC43NSUgYWNjdXJhY3ksIGBuLnRyZWVzYCA9IDIwMCwgYGludGVyYWN0aW9uLmRlcHRoYCA9IDYNCiogYHJlZF93aW5lX2Jvb3N0ZWRfdHVuZWRfY3ZgOiA2Ni4wNyUgYWNjdXJhY3ksIGBuLnRyZWVzYCA9IDIwMCwgYGludGVyYWN0aW9uLmRlcHRoYCA9IDYNCg0KVGhlIHR1bmVkIEdyYWRpZW50IEJvb3N0aW5nIE1hY2hpbmUgbW9kZWwgd2l0aCB0aGUgYGN2YCByZXNhbXBsaW5nIG1ldGhvZCBwcm9kdWNlZCB0aGUgYmVzdCByZXN1bHRzLCBmb3IgYG4udHJlZXNgID0gMjAwIGFuZCBgaW50ZXJhY3Rpb24uZGVwdGhgID0gNi4gVGhlIHRvcCBhY2N1cmFjeSBvZiA2Ni4wNyUsIHdoaWNoIGlzIG11Y2ggYmV0dGVyIHRoYW4gdGhlIDYyLjUxJSBhY2N1cmFjeSBhY2hpZXZlZCBieSB0aGUgbW9kZWwgd2l0aCB0aGUgZGVmYXVsdCBzZXR0aW5ncy4NCg0KIyMjDQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgZmlnLmRpbSA9IGMoOCw2KX0NCnBsb3QocmVkX3dpbmVfYm9vc3RlZCkNCnBsb3QocmVkX3dpbmVfYm9vc3RlZF90dW5lZCkNCnBsb3QocmVkX3dpbmVfYm9vc3RlZF90dW5lZF9jdikNCmBgYA0KDQpUaGVzZSBncmFwaHMgbWFrZSBpdCBlYXN5IHRvIHNlZSB0aGUgYmVzdCBjb21iaW5hdGlvbiBvZiB0cmVlIGRlcHRoIGFuZCBpdGVyYXRpb25zIHRvIHVzZS4gR2VuZXJhbGx5LCB0aGUgbGFyZ2VyIHRoZSBtYXhpbXVtIHRyZWUgZGVwdGgsIHRoZSBtb3JlIGFjY3VyYXRlIHRoZSBtb2RlbCB3YXMuDQoNCiMjIEFkZGl0aW9uYWwgTW9kZWxzDQoNCkV4YW1wbGUgUiBjb2RlIGZvciB0aGUgZGlmZmVyZW50IG1hY2hpbmUgbGVhcm5pbmcgbW9kZWxzIGlzIHByb3ZpZGVkIGJlbG93Og0KDQojIyMgTERBDQoNCmBgYHtyIGNsYXNzLnNvdXJjZSA9ICJmb2xkLXNob3ciLCBldmFsID0gVCwgZWNobyA9IFQsIHdhcm5pbmcgPSBGLCBtZXNzYWdlID0gRiwgY2FjaGUgPSBUfQ0Kc2V0LnNlZWQoMTY1MCkNCnJlZF93aW5lX2xkYSA8LSB0cmFpbihxdWFsaXR5IH4gLiwNCiAgICAgICAgICAgICAgICAgICAgICBkYXRhID0gcmVkX3dpbmVfdHJhaW4sDQogICAgICAgICAgICAgICAgICAgICAgbWV0aG9kID0gImxkYSIpDQpyZWRfd2luZV9sZGENCmBgYA0KDQpUaGUgYmVzdCBhY2N1cmFjeSBhY2hpZXZlZCBieSB0aGlzIG1ldGhvZCBpcyA1OS40MyUuDQoNCiMjIyBTVk0NCg0KYGBge3IgY2xhc3Muc291cmNlID0gImZvbGQtc2hvdyIsIGV2YWwgPSBULCBlY2hvID0gVCwgd2FybmluZyA9IEYsIG1lc3NhZ2UgPSBGLCBjYWNoZSA9IFR9DQpzZXQuc2VlZCgxNjUwKQ0KcmVkX3dpbmVfc3ZtIDwtIHRyYWluKHF1YWxpdHkgfiAuLA0KICAgICAgICAgICAgICAgICAgICAgIGRhdGEgPSByZWRfd2luZV90cmFpbiwNCiAgICAgICAgICAgICAgICAgICAgICBtZXRob2QgPSAic3ZtTGluZWFyIikNCnJlZF93aW5lX3N2bQ0KYGBgDQoNClRoZSBiZXN0IGFjY3VyYWN5IGFjaGlldmVkIGJ5IHRoaXMgbWV0aG9kIGlzIDU5LjAyJS4NCg0KIyMjIGtOTg0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGNhY2hlID0gVH0NCnNldC5zZWVkKDE2NTApDQpyZWRfd2luZV9rbm4gPC0gdHJhaW4ocXVhbGl0eSB+IC4sDQogICAgICAgICAgICAgICAgICAgICAgZGF0YSA9IHJlZF93aW5lX3RyYWluLA0KICAgICAgICAgICAgICAgICAgICAgIG1ldGhvZCA9ICJrbm4iKQ0KcmVkX3dpbmVfa25uDQpgYGANCg0KVGhlIGJlc3QgYWNjdXJhY3kgYWNoaWV2ZWQgYnkgdGhpcyBtZXRob2QgaXMgNTUuMTglLCBmb3IgJGskID0gOS4NCg0KIyBWYWxpZGF0aW5nIFJlc3VsdHMgeyN2YWx9DQoNCk5vIGFuc3dlciByZXF1aXJlZC4NCg0KIyMNCg0KRXhhbXBsZSBjb2RlIGlzIHByb3ZpZGVkIGJlbG93LiAgDQpUaGlzIGlzIG9uZSB3YXkgdG8gY2hlY2sgdGhlIHByZWRpY3RpdmUgYWNjdXJhY2llcyB1c2luZyB0aGUgdmFsaWRhdGlvbiBkYXRhLg0KDQpGb3IgdGhpcyBjaGVjaywgd2UgaGF2ZSBjaG9zZW4gdG8gdXNlIHRoZSBtb2RlbHM6DQoNCiogYHJlZF93aW5lX2RlY190cmVlX3R1bmVkX2N2YA0KKiBgcmVkX3dpbmVfcmZfdHVuZWRfY3ZgDQoqIGByZWRfd2luZV9ib29zdGVkX3R1bmVkX2N2YA0KKiBgcmVkX3dpbmVfbGRhYA0KKiBgcmVkX3dpbmVfc3ZtYA0KKiBgcmVkX3dpbmVfa25uYA0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGNhY2hlID0gVH0NCg0KdmFsaWRhdGlvbl9udW1iZXJzIDwtIGRpbShyZWRfd2luZV92YWxpZGF0ZSlbMV0NCg0KcHJlZGljdF9kZWNfdHJlZV90dW5lZF9jdiA8LSBwcmVkaWN0KHJlZF93aW5lX2RlY190cmVlX3R1bmVkX2N2LCANCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICBuZXdkYXRhID1yZWRfd2luZV92YWxpZGF0ZSkNCg0KcHJlZGljdF9yZl90dW5lZF9jdiAgPC0gcHJlZGljdChyZWRfd2luZV9yZl90dW5lZF9jdiwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5ld2RhdGEgPXJlZF93aW5lX3ZhbGlkYXRlKQ0KDQpwcmVkaWN0X2Jvb3N0ZWRfdHVuZWRfY3YgPC0gcHJlZGljdChyZWRfd2luZV9ib29zdGVkX3R1bmVkX2N2LCANCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIG5ld2RhdGEgPXJlZF93aW5lX3ZhbGlkYXRlKQ0KDQpwcmVkaWN0X2xkYSA8LSBwcmVkaWN0KHJlZF93aW5lX2xkYSwgDQogICAgICAgICAgICAgICAgICAgICAgIG5ld2RhdGEgPXJlZF93aW5lX3ZhbGlkYXRlKQ0KDQpwcmVkaWN0X3N2bSA8LSBwcmVkaWN0KHJlZF93aW5lX3N2bSwgDQogICAgICAgICAgICAgICAgICAgICAgIG5ld2RhdGEgPXJlZF93aW5lX3ZhbGlkYXRlKQ0KDQpwcmVkaWN0X2tubiA8LSBwcmVkaWN0KHJlZF93aW5lX2tubiwgDQogICAgICAgICAgICAgICAgICAgICAgIG5ld2RhdGEgPXJlZF93aW5lX3ZhbGlkYXRlKQ0KDQpkZWNfdHJlZV90dW5lZF9jdl9hY2N1cmFjeSA8LSByb3VuZCgxMDAqc3VtKHByZWRpY3RfZGVjX3RyZWVfdHVuZWRfY3YgPT0gcmVkX3dpbmVfdmFsaWRhdGUkcXVhbGl0eSkgLyB2YWxpZGF0aW9uX251bWJlcnMsIDIpDQoNCnJmX3R1bmVkX2N2X2FjY3VyYWN5IDwtIHJvdW5kKDEwMCpzdW0ocHJlZGljdF9yZl90dW5lZF9jdiA9PSByZWRfd2luZV92YWxpZGF0ZSRxdWFsaXR5KSAvIHZhbGlkYXRpb25fbnVtYmVycywgMikNCg0KYm9vc3RlZF90dW5lZF9jdl9hY2N1cmFjeSA8LSByb3VuZCgxMDAqc3VtKHByZWRpY3RfYm9vc3RlZF90dW5lZF9jdiA9PSByZWRfd2luZV92YWxpZGF0ZSRxdWFsaXR5KSAvIHZhbGlkYXRpb25fbnVtYmVycywgMikNCg0KbGRhX2FjY3VyYWN5IDwtIHJvdW5kKDEwMCpzdW0ocHJlZGljdF9sZGEgPT0gcmVkX3dpbmVfdmFsaWRhdGUkcXVhbGl0eSkgLyB2YWxpZGF0aW9uX251bWJlcnMsIDIpDQoNCnN2bV9hY2N1cmFjeSA8LSByb3VuZCgxMDAqc3VtKHByZWRpY3Rfc3ZtID09IHJlZF93aW5lX3ZhbGlkYXRlJHF1YWxpdHkpIC8gdmFsaWRhdGlvbl9udW1iZXJzLCAyKQ0KDQprbm5fYWNjdXJhY3kgPC0gcm91bmQoMTAwKnN1bShwcmVkaWN0X2tubiA9PSByZWRfd2luZV92YWxpZGF0ZSRxdWFsaXR5KSAvIHZhbGlkYXRpb25fbnVtYmVycywgMikNCg0KZGVjX3RyZWVfdHVuZWRfY3ZfYWNjdXJhY3kNCnJmX3R1bmVkX2N2X2FjY3VyYWN5DQpib29zdGVkX3R1bmVkX2N2X2FjY3VyYWN5DQpsZGFfYWNjdXJhY3kNCnN2bV9hY2N1cmFjeQ0Ka25uX2FjY3VyYWN5DQpgYGANCg0KRnJvbSB0aGVzZSByZXN1bHRzLCB3ZSBjYW4gc2VlIHRoYXQgdGhlIG1vZGVsIHRoYXQgcGVyZm9ybWVkIGJlc3Qgd2hlbiBwcm92aWRlZCB3aXRoIHRoZSB2YWxpZGF0aW9uIGRhdGEgd2FzIHRoZSBSYW5kb20gRm9yZXN0IG1vZGVsIHdpdGggdGhlIHR1bmVkIHBhcmFtZXRlcnMgYW5kIHRoZSBgY3ZgIHJlc2FtcGxpbmcgbWV0aG9kLiBUaGlzIG1vZGVsIGFjaGlldmVkIGFuIGFjY3VyYWN5IG9mIDY2Ljg4JSB1c2luZyB0aGUgdmFsaWRhdGlvbiBkYXRhLiBUaGlzIGlzIGEgZmV3IHBlcmNlbnQgbGVzcyB0aGFuIHRoZSA3MC4wMiUgYWNjdXJhY3kgdGhlIG1vZGVsIGFjaGlldmVkIG9uIHRoZSB0cmFpbmluZyBkYXRhLCBidXQgaXMgc3RpbGwgcXVpdGUgZ29vZC4NCg0KIyBTdW1tYXJpc2luZyBSZXN1bHRzIHsjc3VtfQ0KDQojIw0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGNhY2hlID0gVH0NCnJlc3VsdHNfYm9vdCA8LSByZXNhbXBsZXMobGlzdChkZWNpc2lvbl90cmVlID0gcmVkX3dpbmVfZGVjX3RyZWUsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGRlY2lzaW9uX3RyZWVfdHVuZWQgPSByZWRfd2luZV9kZWNfdHJlZV90dW5lZCwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICByYW5kb21fZm9yZXN0ID0gcmVkX3dpbmVfcmYsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIHJhbmRvbV9mb3Jlc3RfdHVuZWQgPSByZWRfd2luZV9yZl90dW5lZCwgDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgZ3JhZGllbnRfYm9vc3RlZCA9IHJlZF93aW5lX2Jvb3N0ZWQsIA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGdyYWRpZW50X2Jvb3N0ZWRfdHVuZWQgPSByZWRfd2luZV9ib29zdGVkX3R1bmVkLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIGxpbmVhcl9kaXNjX2FuYWx5c2lzID0gcmVkX3dpbmVfbGRhLA0KICAgICAgICAgICAgICAgICAgICAgICAgICAgICAgIHN1cHBvcnRfdmVjdG9yX21hY2hpbmUgPSByZWRfd2luZV9zdm0sDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgICAga19uZWFyZXN0X25laWdoYm91cnMgPSByZWRfd2luZV9rbm4NCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgICApDQogICAgICAgICAgICAgICAgICAgICAgICAgICkNCg0KcmVzdWx0c19jdiA8LSByZXNhbXBsZXMobGlzdChkZWNpc2lvbl90cmVlX3R1bmVkX2N2ID0gcmVkX3dpbmVfZGVjX3RyZWVfdHVuZWRfY3YsDQogICAgICAgICAgICAgICAgICAgICAgICAgICAgIHJhbmRvbV9mb3Jlc3RfdHVuZWRfY3YgPSByZWRfd2luZV9yZl90dW5lZF9jdiwNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgZ3JhZGllbnRfYm9vc3RlZF90dW5lZF9jdiA9IHJlZF93aW5lX2Jvb3N0ZWRfdHVuZWRfY3YNCiAgICAgICAgICAgICAgICAgICAgICAgICAgICAgKQ0KICAgICAgICAgICAgICAgICAgICAgICAgKQ0KDQpzdW1tYXJ5KHJlc3VsdHNfYm9vdCkNCnN1bW1hcnkocmVzdWx0c19jdikNCmBgYA0KDQojIw0KDQpgYGB7ciBjbGFzcy5zb3VyY2UgPSAiZm9sZC1zaG93IiwgZXZhbCA9IFQsIGVjaG8gPSBULCB3YXJuaW5nID0gRiwgbWVzc2FnZSA9IEYsIGZpZy5kaW0gPSBjKDgsNil9DQpkb3RwbG90KHJlc3VsdHNfYm9vdCkNCmRvdHBsb3QocmVzdWx0c19jdikNCmBgYA0KDQojIw0KDQpXZSB0cmFpbmVkIERlY2lzaW9uIFRyZWUsIFJhbmRvbSBGb3Jlc3QsIEdyYWRpZW50IEJvb3N0aW5nIE1hY2hpbmUsIExpbmVhciBEaXNjcmltaW5hbnQgQW5hbHlzaXMsIFN1cHBvcnQgVmVjdG9yIE1hY2hpbmUgYW5kIGstTmVhcmVzdC1OZWlnYm91ciBtYWNoaW5lIGxlYXJuaW5nIG1vZGVscyBvbiB0aGUgUG9ydHVndWVzZSByZWQgd2luZSBkYXRhIGB3aW5lcXVhbGl0eV9yZWQuY3N2YC4NCg0KVGhlIFJhbmRvbSBGb3Jlc3QgbW9kZWxzIGhhZCB0aGUgYmVzdCBvdmVyYWxsIGFjY3VyYWN5IGJhc2VkIG9uIHRoZSB0cmFpbmluZyBkYXRhLCBhdCA3MC4wMiUgd2l0aCB0dW5lZCBwYXJhbWV0ZXJzIGFuZCB0aGUgYGN2YCByZXNhbXBsaW5nIG1ldGhvZC4gVGhpcyB3YXMgc3VwcG9ydGVkIGJ5IHRoZSB2YWxpZGF0aW9uIGRhdGEgdGVzdCwgZm9yIHdoaWNoIHRoZSBzZWxlY3RlZCBSYW5kb20gRm9yZXN0IG1vZGVsIGFjaGlldmVkIGFuIGFjY3VyYWN5IHNjb3JlIG9mIDY2Ljg4JS4NCg0KQmFzZWQgb24gb3VyIHJlc3VsdHMsIHdlIHdvdWxkIHJlY29tbWVuZCB1c2luZyB0aGUgUmFuZG9tIEZvcmVzdCBtYWNoaW5lIGxlYXJuaW5nIG1vZGVsIGZvciB0aGlzIGRhdGEuIFdlIGRvIG5vdGUgaG93ZXZlciB0aGF0IHRoZSBtb2RlbCBjYW4gdGFrZSBzb21lIHRpbWUgdG8gcnVuLg0KDQoqSXQgaXMgd29ydGggbm90aW5nIGhlcmUgdGhhdCB0aGVyZSBhcmUgb3RoZXIgbW9yZSBhZHZhbmNlZCBtb2RlbHMgd2hpY2ggd2UgaGF2ZW4ndCB0cmllZCB0aGF0IGNvdWxkIGxlYWQgdG8gaGlnaGVyIGFjY3VyYWN5IHNjb3Jlcy4qDQoNCjxicj4NCg0KIyMjIyBUaGF0J3MgZXZlcnl0aGluZywgd2VsbCBkb25lLiAjIyMjIHstfQ0KDQo8YnI+DQoNCiMgUmVmZXJlbmNlcyB7LSAjUmVmfQ0KPGRpdiBpZD0icmVmcyI+PC9kaXY+DQoNCjxicj4NCg0KPGZvbnQgY29sb3IgPSAiZ3JleSI+DQpUaGVzZSBub3RlcyBoYXZlIGJlZW4gcHJlcGFyZWQgYnkgUnVwZXJ0IEt1dmVrZS4gUGxlYXNlIG5vdGUgdGhhdCBzb21lIG9mIHRoZSBjb250ZW50IGluIHRoZXNlIG5vdGVzIGhhcyBiZWVuIGRldmVsb3BlZCBmcm9tIGNvbnRlbnQgaW4gQE1vZFN0YXQuIFRoZSBjb3B5cmlnaHQgZm9yIHRoZSBtYXRlcmlhbCBpbiB0aGVzZSBub3RlcyByZXNpZGVzIHdpdGggdGhlIGF1dGhvcnMgbmFtZWQgYWJvdmUsIHdpdGggdGhlIERlcGFydG1lbnQgb2YgTWF0aGVtYXRpY2FsIGFuZCBQaHlzaWNhbCBTY2llbmNlcyBhbmQgd2l0aCBMYSBUcm9iZSBVbml2ZXJzaXR5LiBDb3B5cmlnaHQgaW4gdGhpcyB3b3JrIGlzIHZlc3RlZCBpbiBMYSBUcm9iZSBVbml2ZXJzaXR5IGluY2x1ZGluZyBhbGwgTGEgVHJvYmUgVW5pdmVyc2l0eSBicmFuZGluZyBhbmQgbmFtaW5nLiBVbmxlc3Mgb3RoZXJ3aXNlIHN0YXRlZCwgbWF0ZXJpYWwgd2l0aGluIHRoaXMgd29yayBpcyBsaWNlbnNlZCB1bmRlciBhIENyZWF0aXZlIENvbW1vbnMgQXR0cmlidXRpb24tTm9uIENvbW1lcmNpYWwtTm9uIERlcml2YXRpdmVzIExpY2Vuc2UgDQo8YSBocmVmID0gImh0dHBzOi8vY3JlYXRpdmVjb21tb25zLm9yZy9saWNlbnNlcy9ieS1uYy1uZC80LjAvQ0MiIHRhcmdldD0iX2JsYW5rIj4gQlktTkMtTkQuIDwvYT4NCjwvZm9udD4=

STM1001: Computer Lab 11B Solutions

Data Science Module

Topic 11B: Machine Learning II

1 Preparations

1.1 Load Required Packages

1.2 Wine Data

1.3 Aim

2 Machine Learning Models

2.1

2.2 Tuning Parameters

2.2.1

2.3 Resampling Methods

2.3.1

2.4 Decision Tree Models

2.4.1

2.4.2

2.5 Random Forest

2.5.1

2.5.2

2.5.3

2.5.4

2.5.5

2.5.6

2.6 Gradient Boosting Machine Models

2.6.1

2.6.2

2.6.3

2.6.4

2.6.5

2.7 Additional Models

2.7.1 LDA

2.7.2 SVM

2.7.3 kNN

3 Validating Results

3.1

4 Summarising Results

4.1

4.2

4.3

That’s everything, well done.

References