Основы моделирования

Автор

Молчан Егор, Николаев Максим

Дата публикации

2 июня 2025 г.

1 Установим библиотеки

library(tidyverse)
library(magrittr)
library(ggforce)
library(patchwork)

library(tidymodels)
library(tidyclust)
tidymodels_prefer()

2 Для работы будем использовать датасет `iris`

3 Заметно, что виды ирисов хорошо кластеризуются

4 Обучение модели k_means

iris_rec <-
1  recipe(~ Petal.Length + Petal.Width, data = iris) |>
2  step_normalize(all_predictors())

3kmeans_spec <- k_means(num_clusters = 3) |>
  set_engine("stats")

iris_wf <- workflow() |> 
  add_recipe(iris_rec) |> 
  add_model(kmeans_spec)

4kmeans_fit <- iris_wf |>
  fit(data = iris)

1: Используем только признаки Petal.Length и Petal.Width для эффективной кластеризации
2: Нормализуем выбранные признаки
3: Задаём модель k-средних с 3 кластерами (три вида ирисов)
4: Обучаем модель k-средних на подготовленных данных iris

5 Эффективность модели k_means

K-means clustering with 3 clusters of sizes 50, 52, 48

Cluster means:
  Petal.Length Petal.Width
3   -1.3006301  -1.2507035
1    0.3048515   0.1648655
2    1.0245672   1.1242119

Clustering vector:
  [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 [38] 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2
 [75] 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 2 3 3 3 3
[112] 3 3 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3 3 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3
[149] 3 3

Within cluster sum of squares by cluster:
[1] 1.410870 7.202739 9.293174
 (between_SS / total_SS =  94.0 %)

Available components:

[1] "cluster"      "centers"      "totss"        "withinss"     "tot.withinss"
[6] "betweenss"    "size"         "iter"         "ifault"

5.1 Данные хорошо разделены на 3 кластера

5.2 Таблица сопряжённости сортов и кластеров ирисов

            
             Cluster_1 Cluster_2 Cluster_3
  setosa            50         0         0
  versicolor         0        48         2
  virginica          0         4        46

6 Итоги

6.1 Что изучаем?

Данные о 150 экземплярах ириса, по 50 экземпляров из трёх видов — ирис щетинистый (Iris setosa), ирис виргинский (Iris virginica) и ирис разноцветный (Iris versicolor). Для каждого экземпляра измерялись четыре характеристики (в сантиметрах): длина чашелистика, ширина чашелистика, длина лепестка и ширина лепестка

6.2 Зачем?

Закрепление навыков работы с библиотеками tidymodels и tidyclust. Выполнение задания дает возможность научиться работать с моделью кластеризации k-means, интерпретировать её результаты и делать выводы на основе них.

6.3 Какие выводы?

Для эффективной кластеризации достаточно использовать признаки Petal.Length и Petal.Width
Setosa легко отделяется от остальных видов ирисов
Кластеры хорошо разделены относительно общего разброса данных between_SS / total_SS = 94%

--- title: "Основы моделирования" author: "Молчан Егор, Николаев Максим" date: "2025-06-02" editor: visual number-sections: true lang: ru format: html: toc: true theme: cosmo code-link: true code-annotations: below code-tools: source: true --- ## Установим библиотеки ```{r, message=FALSE} library(tidyverse) library(magrittr) library(ggforce) library(patchwork) library(tidymodels) library(tidyclust) tidymodels_prefer() ``` ## Для работы будем использовать датасет `iris` ```{r, echo = F} sepal <- iris |> ggplot(aes(x = Sepal.Length, y = Sepal.Width, color = Species))+ geom_point(size = 1) + facet_wrap(~Species)+ labs(x = 'Длина чашелистика (cм)', y ='Ширина чашелистика (cм)')+ theme_bw()+ theme(legend.position = 'none') petal <- iris |> ggplot(aes(x = Petal.Length, y = Petal.Width, color = Species))+ facet_wrap(~Species)+ geom_point(size = 1) + labs(x = 'Длина лепестка (cм)', y ='Ширина лепестка (cм)')+ theme_bw()+ theme(legend.position = 'none') (petal / sepal) ``` ## Заметно, что виды ирисов хорошо кластеризуются ```{r, echo = F} iris |> ggplot(aes(Petal.Length, Petal.Width, color = Species)) + geom_point(size = 2) + labs(title = "Сорта ирисов \n", x = 'Длина лепестка (cм)', y ='Ширина лепестка (cм)')+ theme_bw()+ theme(plot.title = element_text (hjust = 0.5), legend.position = 'none')+ geom_mark_ellipse(aes(label = Species, fill = Species), expand = unit(0.4, "mm"), linetype = 1, alpha = 0.1) ``` ## Обучение модели k_means ```{r} iris_rec <- recipe(~ Petal.Length + Petal.Width, data = iris) |> #<1> step_normalize(all_predictors()) #<2> kmeans_spec <- k_means(num_clusters = 3) |> #<3> set_engine("stats") #<3> iris_wf <- workflow() |> add_recipe(iris_rec) |> add_model(kmeans_spec) kmeans_fit <- iris_wf |> #<4> fit(data = iris) #<4> ``` 1. Используем только признаки `Petal.Length` и `Petal.Width` для эффективной кластеризации 2. Нормализуем выбранные признаки 3. Задаём модель k-средних с 3 кластерами (три вида ирисов) 4. Обучаем модель k-средних на подготовленных данных `iris` ## Эффективность модели k_means ```{r, echo = F} kmeans_fit$fit$fit$fit ``` ### Данные хорошо разделены на 3 кластера ```{r, echo = F} iris$Cluster <- as.factor(extract_cluster_assignment(kmeans_fit)$.cluster) iris |> ggplot(aes(x = Petal.Length, y = Petal.Width, color = Cluster)) + geom_point(size = 2)+ geom_mark_ellipse(aes(label = Cluster, fill = Cluster), expand = unit(1.5, "mm"), linetype = 1, alpha = 0.1) + labs(title = "Кластеризация ирисов", x = 'Длина лепестка (cм)', y ='Ширина лепестка (cм)') + theme_bw()+ theme(plot.title = element_text (hjust = 0.5), legend.position = 'none') ``` ### Таблица сопряжённости сортов и кластеров ирисов ```{r, echo = F} table(iris$Species, iris$Cluster) ``` ## Итоги ### Что изучаем? Данные о 150 экземплярах ириса, по 50 экземпляров из трёх видов — ирис щетинистый (`Iris setosa`), ирис виргинский (`Iris virginica`) и ирис разноцветный (`Iris versicolor`). Для каждого экземпляра измерялись четыре характеристики (в сантиметрах): длина чашелистика, ширина чашелистика, длина лепестка и ширина лепестка ### Зачем? Закрепление навыков работы с библиотеками `tidymodels` и `tidyclust`. Выполнение задания дает возможность научиться работать с моделью кластеризации `k-means`, интерпретировать её результаты и делать выводы на основе них. ### Какие выводы? - Для эффективной кластеризации достаточно использовать признаки `Petal.Length` и `Petal.Width` - `Setosa` легко отделяется от остальных видов ирисов - Кластеры хорошо разделены относительно общего разброса данных `between_SS / total_SS = 94%`