Метод k-средних

Алгоритм кластеризации k-средних итеративно разделяет данные на k кластеров, оптимизируя расположение центроидов.

Количество кластеров (k=3) было определено методом “локтя” с использованием графика внутрикластерной суммы квадратов (WSS).

В данной примере использовались реальные данные массовых долей элементов в образцах. Визуализация результатов проводилась методом главных компонент (PCA), что позволило отобразить группировку точек в двумерном пространстве. Полученные результаты показали четкое разделение наблюдений на три ранее определенных кластера.

Также можно использовать функцию fviz_cluster() из пакета factoextra, которая создает визуализацию результатов кластерного анализа. В данном примере отображены центроиды, которые представляют собой средние точки каждого кластера.

Иерархическая дендрограмма

Также внизу отображено иерархическое древовидное представление данных, в котором кластеры, полученные методом k-средних, выделены различными цветами. Такая визуализация в виде дендрограммы позволяет наглядно продемонстрировать иерархическую структуру данных и взаимосвязи между кластерами.

Факторный анализ

Факторный анализ представляет собой мощный инструмент статистического исследования, направленный на раскрытие внутренней структуры многомерных данных. Этот метод позволяет выявить неявные, или латентные, переменные, которые лежат в основе наблюдаемых взаимосвязей между измеряемыми характеристиками.

Перед тем как приступить к факторному анализу, был построен график собственных значений (scree plot) для корреляционной матрицы данных. Данный график использовался для определения оптимального числа факторов. На рисунке внизу видно, что для описания данных достаточно всего одного фактора, однако для наглядной визуализации результата было выбрано два фактора.

На рисунке ниже представлена визуализация результатов факторного анализа. Стрелки отображают связи между факторами и переменными. Числа рядом со стрелками указывают факторные нагрузки (корреляции между переменными и факторами).

Анализ графика факторных оценок позволяет идентифицировать три отчетливые группы, характеризующиеся 90-процентным уровнем достоверности.