Установка и загрузка пакетов:

library(caret)
library(lattice)
library(FSelector)
library(arules)
library(mlbench)
library(Boruta)

Задание 1: Пакет caret и графический анализ данных

Пакет caret предоставляет инструменты для предобработки данных, выбора признаков и построения моделей машинного обучения.

После его утсановки и загрузки просмотрим доступные методы выбора признаков:

names(getModelInfo())

##   [1] "ada"                 "AdaBag"              "AdaBoost.M1"        
##   [4] "adaboost"            "amdai"               "ANFIS"              
##   [7] "avNNet"              "awnb"                "awtan"              
##  [10] "bag"                 "bagEarth"            "bagEarthGCV"        
##  [13] "bagFDA"              "bagFDAGCV"           "bam"                
##  [16] "bartMachine"         "bayesglm"            "binda"              
##  [19] "blackboost"          "blasso"              "blassoAveraged"     
##  [22] "bridge"              "brnn"                "BstLm"              
##  [25] "bstSm"               "bstTree"             "C5.0"               
##  [28] "C5.0Cost"            "C5.0Rules"           "C5.0Tree"           
##  [31] "cforest"             "chaid"               "CSimca"             
##  [34] "ctree"               "ctree2"              "cubist"             
##  [37] "dda"                 "deepboost"           "DENFIS"             
##  [40] "dnn"                 "dwdLinear"           "dwdPoly"            
##  [43] "dwdRadial"           "earth"               "elm"                
##  [46] "enet"                "evtree"              "extraTrees"         
##  [49] "fda"                 "FH.GBML"             "FIR.DM"             
##  [52] "foba"                "FRBCS.CHI"           "FRBCS.W"            
##  [55] "FS.HGD"              "gam"                 "gamboost"           
##  [58] "gamLoess"            "gamSpline"           "gaussprLinear"      
##  [61] "gaussprPoly"         "gaussprRadial"       "gbm_h2o"            
##  [64] "gbm"                 "gcvEarth"            "GFS.FR.MOGUL"       
##  [67] "GFS.LT.RS"           "GFS.THRIFT"          "glm.nb"             
##  [70] "glm"                 "glmboost"            "glmnet_h2o"         
##  [73] "glmnet"              "glmStepAIC"          "gpls"               
##  [76] "hda"                 "hdda"                "hdrda"              
##  [79] "HYFIS"               "icr"                 "J48"                
##  [82] "JRip"                "kernelpls"           "kknn"               
##  [85] "knn"                 "krlsPoly"            "krlsRadial"         
##  [88] "lars"                "lars2"               "lasso"              
##  [91] "lda"                 "lda2"                "leapBackward"       
##  [94] "leapForward"         "leapSeq"             "Linda"              
##  [97] "lm"                  "lmStepAIC"           "LMT"                
## [100] "loclda"              "logicBag"            "LogitBoost"         
## [103] "logreg"              "lssvmLinear"         "lssvmPoly"          
## [106] "lssvmRadial"         "lvq"                 "M5"                 
## [109] "M5Rules"             "manb"                "mda"                
## [112] "Mlda"                "mlp"                 "mlpKerasDecay"      
## [115] "mlpKerasDecayCost"   "mlpKerasDropout"     "mlpKerasDropoutCost"
## [118] "mlpML"               "mlpSGD"              "mlpWeightDecay"     
## [121] "mlpWeightDecayML"    "monmlp"              "msaenet"            
## [124] "multinom"            "mxnet"               "mxnetAdam"          
## [127] "naive_bayes"         "nb"                  "nbDiscrete"         
## [130] "nbSearch"            "neuralnet"           "nnet"               
## [133] "nnls"                "nodeHarvest"         "null"               
## [136] "OneR"                "ordinalNet"          "ordinalRF"          
## [139] "ORFlog"              "ORFpls"              "ORFridge"           
## [142] "ORFsvm"              "ownn"                "pam"                
## [145] "parRF"               "PART"                "partDSA"            
## [148] "pcaNNet"             "pcr"                 "pda"                
## [151] "pda2"                "penalized"           "PenalizedLDA"       
## [154] "plr"                 "pls"                 "plsRglm"            
## [157] "polr"                "ppr"                 "pre"                
## [160] "PRIM"                "protoclass"          "qda"                
## [163] "QdaCov"              "qrf"                 "qrnn"               
## [166] "randomGLM"           "ranger"              "rbf"                
## [169] "rbfDDA"              "Rborist"             "rda"                
## [172] "regLogistic"         "relaxo"              "rf"                 
## [175] "rFerns"              "RFlda"               "rfRules"            
## [178] "ridge"               "rlda"                "rlm"                
## [181] "rmda"                "rocc"                "rotationForest"     
## [184] "rotationForestCp"    "rpart"               "rpart1SE"           
## [187] "rpart2"              "rpartCost"           "rpartScore"         
## [190] "rqlasso"             "rqnc"                "RRF"                
## [193] "RRFglobal"           "rrlda"               "RSimca"             
## [196] "rvmLinear"           "rvmPoly"             "rvmRadial"          
## [199] "SBC"                 "sda"                 "sdwd"               
## [202] "simpls"              "SLAVE"               "slda"               
## [205] "smda"                "snn"                 "sparseLDA"          
## [208] "spikeslab"           "spls"                "stepLDA"            
## [211] "stepQDA"             "superpc"             "svmBoundrangeString"
## [214] "svmExpoString"       "svmLinear"           "svmLinear2"         
## [217] "svmLinear3"          "svmLinearWeights"    "svmLinearWeights2"  
## [220] "svmPoly"             "svmRadial"           "svmRadialCost"      
## [223] "svmRadialSigma"      "svmRadialWeights"    "svmSpectrumString"  
## [226] "tan"                 "tanSearch"           "treebag"            
## [229] "vbmpRadial"          "vglmAdjCat"          "vglmContRatio"      
## [232] "vglmCumulative"      "widekernelpls"       "WM"                 
## [235] "wsrf"                "xgbDART"             "xgbLinear"          
## [238] "xgbTree"             "xyf"

Создадим матрицу случайных данных и вектор классов, затем проведем разведочный анализ данных с помощью featurePlot():

set.seed(123)
x <- matrix(rnorm(50 * 5), ncol = 5)
y <- factor(rep(c("A", "B"), 25))
df <- data.frame(x, y)
featurePlot(x = df[, 1:5], y = df$y, plot = "density")

Сохраним графики в .jpg:

jpeg("feature_plot.jpg")
featurePlot(x = df[, 1:5], y = df$y, plot = "density")
dev.off()

## png 
##   2

Вывод: графический анализ показывает, как распределены значения признаков для каждого класса. Это позволяет выявить, какие признаки лучше разделяют классы, а какие могут быть менее информативными.

2. Важность признаков (FSelector)

Определим важность признаков для классификации в датасете iris, information.gain вычисляет, насколько каждый признак уменьшает неопределённость при классификации.

2.1 Оценка значимости признаков

data(iris)
weights <- information.gain(Species ~ ., iris)
print(weights)

##              attr_importance
## Sepal.Length       0.4521286
## Sepal.Width        0.2672750
## Petal.Length       0.9402853
## Petal.Width        0.9554360

2.2 Визуализация

barplot(weights$attr_importance, names.arg=rownames(weights), main="Важность признаков")

Вывод: наиболее значимыми характеристиками для классификации видов ирисов являются размеры лепестка (Petal.Length и Petal.Width). Признаки чашелистика (Sepal.Length и Sepal.Width) менее информативные.

3. Дискретизация переменной (arules)

Дискретизация позволяет преобразовать непрерывные переменные в категориальные для более простых моделей. Выполним дискретизацию переменной Sepal.Length в iris разными методами: «interval» (равная ширина интервала), «frequency» (равная частота), «cluster» (кластеризация) и «fixed» (категории задают границы интервалов).

3.1 Дискретизация признака `Sepal.Length`

iris$Sepal.Length_disc_int <- discretize(iris$Sepal.Length, method="interval", categories=3)

## Warning in discretize(iris$Sepal.Length, method = "interval", categories = 3):
## Parameter categories is deprecated. Use breaks instead! Also, the default
## method is now frequency!

iris$Sepal.Length_disc_freq <- discretize(iris$Sepal.Length, method="frequency", categories=3)

## Warning in discretize(iris$Sepal.Length, method = "frequency", categories = 3):
## Parameter categories is deprecated. Use breaks instead! Also, the default
## method is now frequency!

iris$Sepal.Length_disc_clust <- discretize(iris$Sepal.Length, method="cluster", categories=3)

## Warning in discretize(iris$Sepal.Length, method = "cluster", categories = 3):
## Parameter categories is deprecated. Use breaks instead! Also, the default
## method is now frequency!

iris$Sepal.Length_disc_fixed <- discretize(iris$Sepal.Length, method="fixed", breaks = c(4.3, 5.0, 6.0, 7.9))

3.2 Анализ распределения

table(iris$Sepal.Length_disc_int)

## 
## [4.3,5.5) [5.5,6.7) [6.7,7.9] 
##        52        70        28

table(iris$Sepal.Length_disc_freq)

## 
## [4.3,5.4) [5.4,6.3) [6.3,7.9] 
##        46        53        51

table(iris$Sepal.Length_disc_clust)

## 
##  [4.3,5.33) [5.33,6.27)  [6.27,7.9] 
##          46          53          51

table(iris$Sepal.Length_disc_fixed)

## 
## [4.3,5)   [5,6) [6,7.9] 
##      22      61      67

Вывод: метод interval полезен, когда нужно равномерное разбиение. Frequency помогает, если важно, чтобы группы содержали одинаковое количество наблюдений. Cluster полезен для обнаружения естественных групп, а fixed – когда мы уже знаем, какие границы категорий имеют смысл.

4. Выбор признаков (Boruta)

Boruta — это алгоритм отбора признаков, основанный на методе случайных лесов (Random Forest). Его цель — автоматически определить, какие признаки в наборе данных действительно важны, а какие — нет.

Проведем выбор наиболее значимых признаков на наборе данных Ozone. Целевой переменной (target) будет уровень загрязнения озоном (V4), а остальные переменные юудут рассматриваться как потенциальные факторы, влияющие на него:

4.1 Загрузка данных и обработка

data("Ozone", package="mlbench")
# Удаляем пропущенные значения
Ozone <- na.omit(Ozone)

4.2 Запуск Boruta

set.seed(123)
boruta_result <- Boruta(V4 ~ ., data=Ozone, doTrace=2)

##  1. run of importance source...

##  2. run of importance source...

##  3. run of importance source...

##  4. run of importance source...

##  5. run of importance source...

##  6. run of importance source...

##  7. run of importance source...

##  8. run of importance source...

##  9. run of importance source...

##  10. run of importance source...

##  11. run of importance source...

## After 11 iterations, +0.71 secs:

##  confirmed 9 attributes: V1, V10, V11, V12, V13 and 4 more;

##  rejected 2 attributes: V3, V6;

##  still have 1 attribute left.

##  12. run of importance source...

##  13. run of importance source...

##  14. run of importance source...

##  15. run of importance source...

##  16. run of importance source...

##  17. run of importance source...

##  18. run of importance source...

##  19. run of importance source...

##  20. run of importance source...

##  21. run of importance source...

##  22. run of importance source...

##  23. run of importance source...

##  24. run of importance source...

## After 24 iterations, +1.5 secs:

##  rejected 1 attribute: V2;

##  no more attributes left.

print(boruta_result)

## Boruta performed 24 iterations in 1.466671 secs.
##  9 attributes confirmed important: V1, V10, V11, V12, V13 and 4 more;
##  3 attributes confirmed unimportant: V2, V3, V6;

4.3 Визуализация результатов

plot(boruta_result, las = 2, cex.axis = 0.7, main = "Важность признаков")

Вывод: график показал, что некоторые переменные являются значимыми для предсказания уровня озона, а другие можно исключить.

Лабораторная работа №2. Работа с пакетами CARET и BORUTA на языке R

Козенко А.Д. 221-371

2025-03-24

Задание 1: Пакет caret и графический анализ данных

2. Важность признаков (FSelector)

2.1 Оценка значимости признаков

2.2 Визуализация

3. Дискретизация переменной (arules)

3.1 Дискретизация признака `Sepal.Length`

3.2 Анализ распределения

4. Выбор признаков (Boruta)

4.1 Загрузка данных и обработка

4.2 Запуск Boruta

4.3 Визуализация результатов

Лабораторная работа №2. Работа с пакетами CARET и BORUTA на языке R

Козенко А.Д. 221-371

2025-03-24

Задание 1: Пакет caret и графический анализ данных

2. Важность признаков (FSelector)

2.1 Оценка значимости признаков

2.2 Визуализация

3. Дискретизация переменной (arules)

3.1 Дискретизация признака Sepal.Length

3.2 Анализ распределения

4. Выбор признаков (Boruta)

4.1 Загрузка данных и обработка

4.2 Запуск Boruta

4.3 Визуализация результатов

3.1 Дискретизация признака `Sepal.Length`