Модель частичных наименьших квадратов / Partial Least Squares Structural Equation Modeling (PLS-SEM)

Введение

Partial Least Squares Structural Equation Modeling (PLS-SEM, модель частичных наименьших квадратов) представляет собой так называемый variance-based подход к моделированию структурных уравнений, показавший свои преимущества при работе с большим числом индикаторов и малыми выборками. В отличие от covariance-based SEM (подхода, основанного на ковариации), PLS максимизирует объясненную дисперсию зависимых переменных.

План

  • Ограничения классических методов “первого поколения”
  • Еще раз о теоретической модели SEM
  • Рефлективные (Reflective) vs Формирующие (Formative) индикаторы
  • Базовый алгоритм PLS
  • Практические рекомендации
  • Пример модели в JASP
  • Самостоятельная работа

Ограничения классических методов «первого поколения»

Многомерные методы первого поколения, такие как регрессионный анализ, дискриминантный анализ, логистическая регрессия, дисперсионный анализ, а также факторный или кластерный анализ, относятся к основному набору статистических инструментов, которые могут использоваться для выявления или подтверждения теоретических гипотез на основе анализа эмпирических данных.

Многие ученые по всему миру использовали в прошлом и, наверняка, будут использовать эти методы в будущем для создания научных открытий, которые изменили наши представления о мире.

Например, с помощью факторного анализа Ч. Спирмен (1904) обосновал наличие общего фактора интеллекта (g), а Гирт Ховстеде (1980) провел свои знаменитые кросс-культурные измерения, выведя пять факторов, по которым можно различать культуру (в том числе корпоративную) : индивидуализм / коллективизм, дистанция власти, мужественность / женственность и избегание неопределенности. Эдвард Альтман (1968) на основе дискриминантного анализа предложил Z-формулу, учитывающую пять ключевых коэффициентов, описывающих финансовое состояние предприятий, сделавшую прорыв в предсказании их банкротства и устойчивости на рынке.

Однако, у всех этих методов есть три довольно существенных ограничения:

  1. Предположение о простой структуре модели. Например, в регрессионном анализе только одна переменная назначается как зависимая, а другие определяются как независимые, другие отношения не учитываются.
  2. Допущение, что все переменные можно считать наблюдаемыми, то есть полученными в результате реальных экспериментов. Хотя факторный анализ позволяет анализировать латентные переменные, установить взаимосвязи между ними невозможно.
  3. Предположение, что все переменные измеряются без ошибки, что может ограничивать их применимость в некоторых исследовательских ситуациях.

Методология SEM, собственно, и была разработана для преодоления ограничений методов первого поколения, став для них конкурентоспособной альтернативой.

SEM позволяет одновременно моделировать отношения среди множества независимых и зависимых конструктов, поэтому в ней различают не зависимые и независимые переменные, а проводят различие между экзогенными и эндогенными (латентными) переменными.

Первые представляют собой переменные, которые не объясняются исследуемой моделью (т.е. всегда выступают в роли независимых переменных), а вторые, напротив, являются переменными, объясняемыми отношениями, содержащимися в модели.

Структура SEM-модели

Мы уже знаем, что SEM может использоваться (и часто используется) для проверки теоретических предположений на эмпирических данных. Поэтому крайне важно иметь представление о том, как теоретические положения связываются с различными частями модели SEM.

Согласно Haenlein and Kaplan (2004) теория может содержать три различных типа концептов:

  • теоретические концепты, которые представляют собой «абстрактные, ненаблюдаемые свойства или атрибуты социального явления» (например, справедливость, которую нельзя “увидеть”, сложно подобрать индикаторы, существует множественность трактовок и интерпретаций;
  • эмпирические концепты, которые «относится к свойствам или отношениям, наличие или отсутствие которых может быть установлено посредством прямых наблюдений» (например, доход, частота сердечных сокращений, длительность рабочего дня и т.д.);
  • производные концепты, которые являются ненаблюдаемыми (как теоретические концепты), но «в отличие от теоретических концептов связаны с какими-либо эмпирическими концептами» (например, дипрессия - это совокупность симптомов, которые можно наблюдать и по их наличию поставить диагноз).

Соответственно, существуют три возможных типа отношений:

  • ненаблюдаемые гипотезы, которые связывают теоретические концепты с другими теоретическими концептами;
  • теоретические определения, которые переводят теоретические концепты в производные; и
  • правила соответствия, которые связывают теоретические или производные концепты с эмпирическими и служат «для предоставления эмпирического значения теоретическим терминам» (то, что социологи обычно называют термином «операционализация»).

Рис 1. Теоретические концепты, используемые в ходе моделирования структурными уравнениями.

Используя эту схему, мы можем разработать исследовательскую модель, которая представляет какую-то определенную теорию, переведя теоретические и производные концепты в ненаблюдаемые (латентные) переменные, а эмпирические концепты в индикаторы, связанные с определенными гипотезами, которые могут касаться ненаблюдаемых гипотез, теоретических определений или правил соответствия.

Представим это все в гипотетической исследовательской модели (рис. 2), используя следующие обозначения:

  • \(\eta\) (эта) — латентная эндогенная переменная (зависимый конструкт).
  • \(\xi\) (кси) — латентная экзогенная переменная (независимый конструкт).
  • \(\zeta\) (дзета) — случайный возмущающий термин (ошибка в структурном уравнении).
  • \(\gamma\) (гамма) — структурный коэффициент связи между латентными переменными.
  • \(\phi\) (фи) — некаузальная (корреляционная) связь между двумя латентными экзогенными переменными.
  • \(y_i\) — индикаторы (наблюдаемые переменные) эндогенных латентных переменных.
  • \(\epsilon_i\) (эпсилон) — ошибки измерения индикаторов эндогенных переменных.
  • \(\lambda_{yi}\) — нагрузки индикаторов эндогенных переменных (lambda y).
  • \(x_i\) — индикаторы (наблюдаемые переменные) экзогенных латентных переменных.
  • \(\delta_i\) (дельта) — ошибки измерения индикаторов экзогенных переменных.
  • \(\lambda_{xi}\) — нагрузки индикаторов экзогенных переменных (lambda x).

Рис. 2. Гипотетическая исследовательская модель

Основными для этой модели являются следующие уравнения.

Модель измерения экзогенных латентных переменных

Первый блок уравнений связывает индикаторы экзогенных переменных (x) с их ошибками (δ) и латентными экзогенными переменными (ξ):

\[ \begin{align} x_1 &= \lambda_{x11} \xi_1 + \delta_1 \\ x_2 &= \lambda_{x21} \xi_1 + \delta_2 \\ x_3 &= \lambda_{x32} \xi_2 + \delta_3 \\ x_4 &= \lambda_{x42} \xi_2 + \delta_4 \\ x_5 &= \lambda_{x53} \xi_2 + \delta_5 \\ x_6 &= \lambda_{x63} \xi_2 + \delta_6 \end{align} \]

Символ Значение Размерность Описание
\(\mathbf{x}\) Вектор наблюдаемых индикаторов \((p \times 1)\) Манифестные переменные \(x_1, x_2, \dots, x_6\)
\(\mathbf{\Lambda}_x\) Матрица факторных нагрузок \((p \times m)\) Факторные нагрузки \(\lambda_{x11}, \lambda_{x21}, \dots\) (0-1)
\(\mathbf{\xi}\) Вектор латентных экзогенных \((m \times 1)\) Латентные независимые \(\xi_1, \xi_2, \dots, \xi_6\)
\(\mathbf{\Delta}\) Вектор ошибок измерения \((p \times 1)\) Ошибки \(\delta_1, \delta_2, \dots, \delta_6\)

Модель измерения для эндогенных латентных переменных

Второй блок описывает взаимосвязи между индикаторами эндогенных переменных (y), их ошибками измерения (ε), и соответствеющими им эндогенными латентными переменными (η ):

\[ \begin{align} y_1 &= \lambda_{y11} \eta_1 + \epsilon_1 \\ y_2 &= \lambda_{y21} \eta_1 + \epsilon_2 \\ y_3 &= \lambda_{y32} \eta_2 + \epsilon_3 \\ y_4 &= \lambda_{y42} \eta_2 + \epsilon_4 \end{align} \]

Символ Значение Размерность Описание
\(\mathbf{y}\) Вектор наблюдаемых индикаторов \((q \times 1)\) Манифестные \(y_1, y_2, \dots, y_q\)
\(\mathbf{\Lambda}_y\) Матрица факторных нагрузок \((q \times n)\) Нагрузки \(\lambda_{y11}, \lambda_{y21}, \dots\)
\(\mathbf{\eta}\) Вектор латентных эндогенных \((n \times 1)\) Зависимые конструкты \(\eta_1, \eta_2, \dots, \eta_n\)
\(\mathbf{\epsilon}\) Вектор ошибок измерения \((q \times 1)\) Ошибки \(\epsilon_1, \epsilon_2, \dots, \epsilon_q\)

Структурная модель

В конечном итоге, третья часть моделирует отношения меду латентными эндогенными переменными (η) и экзогенными (ξ) переменными:

\[ \begin{align} \eta_1 & = \gamma_{11}\xi_1 + \zeta_1\\ \eta_2 & = \beta_{21}\eta_1+ \gamma_{21}\xi_1+\gamma_{22}\xi_2+\gamma_{23}\xi_3+\zeta_2 \end{align} \]

Символ Значение Размерность Описание
\(\mathbf{\eta}\) Латентные эндогенные (слева) \((n \times 1)\) Зависимые конструкты
\(\mathbf{B}\) Коэффициенты эндогенных связей \((n \times n)\) Внутриэндогенные \(\beta_{21}\) (от \(\eta_1\) к \(\eta_2\))
\(\mathbf{\Gamma}\) Коэффициенты экзогенных связей \((n \times m)\) Экзогенно-эндогенные \(\gamma_{11}, \gamma_{21}, \gamma_{22}, \dots\)
\(\mathbf{\xi}\) Латентные экзогенные \((m \times 1)\) Независимые конструкты
\(\mathbf{\zeta}\) Структурные ошибки \((n \times 1)\) Ошибки уравнения \(\zeta_1, \zeta_2, \dots\)

Можно представить все уравнения в более компактном матричном виде:

Модель измерения для экзогенных переменных: \[\mathbf{x} = \mathbf{\Lambda}_x \mathbf{\xi} + \mathbf{\Delta}\\(1)\]

Модель измерения для эндогенных переменных: \[\mathbf{y} = \mathbf{\Lambda}_y \mathbf{\eta} + \mathbf{\epsilon}\\(2)\]

Структурная модель: \[\mathbf{\eta} = \mathbf{B}\mathbf{\eta} + \mathbf{\Gamma}\mathbf{\xi} + \mathbf{\zeta}\\(3)\]

Где: \(\mathbf{\Lambda}_x\) — матрица факторных нагрузок экзогенных переменных \(\mathbf{\Lambda}_y\) — матрица факторных нагрузок эндогенных переменных \(\mathbf{\xi}\) — латентные экзогенные, \(\mathbf{\eta}\) — латентные эндогенные переменные, \(\mathbf{\Delta}\) — ошибки измерения экзогенных индикаторов \(\mathbf{\epsilon}\) — ошибки измерения эндогенных индикаторов, \(\mathbf{B}\) — матрица эндогенных связей (η влияет на η), \(\mathbf{\Gamma}\) — матрица структурных коэффициентов от экзогенных к эндогенным.

Последнее уравнение (3) представляет как раз ненаблюдаемые гипотезы и теоретические опреления, тогда как первое (1) и второе (2) уравнения являются правилами соответствия.

Рефлективные, отражающие (Reflective) и формирующие (Formative) индикаторы

Наблюдаемые индикаторы могут быть распределены на две группы (и мы уже это обсуждали):

(a) рефлективные, отражающие (reflective) индикаторы, которые зависят от конструкта (например, если рассматривать депрессию как такой конструкт, то симптомы как раз и будут зависеть от ее наличия и выраженности)

(b) формирующие, также известные как причинные индикаторы, которые, напротив, приводят к изменению в ненаблюдаемой (латентной) переменной (Bollen & Lennox, 1991).

Рис 3. Рефлексивные и формирующие индикаторы

Рефлексивные индикаторы могут быть выражены как функция от их латентных переменных, например:

\[ y1 = λy_1 η + ε_1\\ y2 = λy_2 η + ε_2\\ y3 = λy_3 η + ε_3 \]

Тип Модель Корреляция индикаторов Пример
Reflective \(y_i = \lambda_{yi} \eta_i + \epsilon_i\) Высокая “Оперативность”
Formative \(\xi_i = \beta_{i1}x_1 + \beta_{i2}x_2 + \dots\) Произвольная “Стресс”

Формативные индикаторы в SEM не являются следствием латентной переменной, а сами формируют её, поэтому уравнение записывают так:

\[ \eta = \gamma_{x1} x_1 + \gamma_{x2} x_2 + \gamma_{x3} x_3 + \zeta \]

где \(\gamma_{x_1}\), \(\gamma_{x_2}\), \(\gamma_{x_3}\) — веса (коэффициенты) индикаторов \(x_1\), \(x_2\), \(x_3\), а \(\zeta\) — ошибка уравнения.

Таким образом, если ненаблюдаемая переменная порождает наблюдаемое поведение, как в случае личностных черт или установок, используют рефлективные индикаторы (например, латентная переменная восприятия времени «оперативность» определяется индикаторами выполнение срочных запросов, пунктуальность в соблюдении сроков, скорость ответа на телефонные звонки).

Если же конструкт понимается как комбинация формирующих его индикаторов, применяют формативные индикаторы (например, «стресс» как сочетание потери работы, развода, недавней аварии, смерти близкого).

Еще одно существенное отличие:
- у рефлективных индикаторов ожидается высокая взаимная корреляция,
- у формативных индикаторов корреляции могут быть положительными, отрицательными или нулевыми, и изменение одного индикатора не требует аналогичного изменения других.

В приведенных примерах ожидается, что человек с более высоким уровнем оперативности будет способен выполнять срочные поручения И будет более пунктуальным И будет быстрее отвечать на звонки. С другой стороны, уровень жизненного стресса не обязательно предполагает, что все несчастья (потеря работы, развод и какой-то инцидент) произойдут одновременно.

Базовый алгоритм PLS

Существует два основных подхода к оцениванию параметров SEM‑модели:

основанный на ковариации (все, что мы делали до сих пор относилось именно к этому подходу)

основанный на дисперсии.

Ковариационный подход нацелен на то, чтобы минимизировать расхождение между матрицей ковариаций в выборочной совокупности и матрицей ковариаций, которую предсказывает теоретическая модель. Иначе говоря, процедура оценивания параметров подбирает такие значения, при которых модель максимально точно «воспроизводит» эмпирическую матрицу ковариаций наблюдаемых переменных.

Подход, основанный на дисперсии, как раз и реализуется через PLS (Partial Least Squares). В отличие от ковариационного SEM, PLS не стремится восстановить матрицу ковариаций. Его цель — максимизировать долю дисперсии зависимых латентных переменных, объясняемую латентными предикторами. Как и любая SEM‑модель, PLS‑модель включает структурную часть (связи между латентными переменными) и измерительную часть (связь латентных переменных с индикаторами). Дополнительно в PLS есть третий компонент — система весов, с помощью которой вычисляются «оценки» (scores) латентных переменных на уровне отдельных наблюдений.

При ковариационном подходе сначала оцениваются параметры модели, а затем на их основе вычисляются значения латентных переменных для наблюдений как результат регрессии индикаторов на латентные факторы. В PLS всё делается в обратном порядке: сначала для каждой латентной переменной строятся её оценки как линейные комбинации соответствующих индикаторов; эти линейные комбинации рассматриваются как “прокси” для скрытых переменных. Веса при индикаторах подбираются так, чтобы полученные оценки латентных переменных содержали максимум дисперсии предикторов. Неявное допущение здесь состоит в том, что любая наблюдаемая вариативность в рамках модели считается содержательно значимой и подлежащей объяснению.

Используя найденные веса, можно для каждого наблюдения получить значения всех латентных переменных, которые вычисляются как взвешенные суммы их индикаторов. После этого вся модель сводится к набору обычных регрессий по методу наименьших квадратов между полученными латентными оценками.

В этом и состоит базовая идея PLS:

  • оценить веса, связывающие индикаторы с латентными переменными;

  • по этим весам вычислить оценки латентных переменных;

  • оценить структурные связи между латентными переменными с помощью OLS‑регрессий.

Из такого описания следует, что ключевой этап PLS‑анализа — как раз оценивание весов. Можно было бы формально присвоить всем индикаторам одинаковые веса, но у такого решения две серьёзные проблемы.

Во‑первых, нет теоретического основания считать вклад всех индикаторов одинаковым, и при умеренном числе индикаторов тип весов будет заметно влиять на итоговые структурные коэффициенты.

Во‑вторых, индикаторы различаются по надёжности, а значит более надёжные должны влиять сильнее, чем менее надёжные.

Поэтому в PLS применяется более сложная двухшаговая процедура оценивания весов.

  • На первом шаге (внешняя аппроксимация) для каждой латентной переменной рассчитываются её оценки как взвешенные суммы её индикаторов, например, \(\eta_2 = w_1y_3 + w_2 y_4\), веса при этом выбираются по принципу, похожему на анализ главных компонент для рефлективных индикаторов или на регрессионную модель для формативных.
  • На втором шаге (внутренняя аппроксимация) оценки латентных переменных пересчитываются как взвешенные средние «соседних» латентных переменных, связанных с ними в структурной модели: \(\eta''_2 = w_3\eta_1' + w_4\xi_1' + w_5\xi_2' + w_6\xi_3'\) . Существуют разные схемы вычисления этих внутренних весов (центроид, факторный подход, взвешивание путей), но выбор между ними обычно мало влияет на конечные результаты. Используя новые оценки латентных переменных, пересчитывают веса в измерительной части — и цикл «внешняя/внутренняя аппроксимация» повторяется до сходимости.

Поскольку PLS относится к методам с «ограниченной информацией» (limited information approach), он не делает жёстких предположений ни о распределении данных в генеральной совокупности, ни о шкалах измерения. Поэтому метод применим к номинальным, порядковым и интервальным данным и не требует нормальности. Имитационные исследования с применением симуляций по методу Монте‑Карло показывают, что PLS достаточно устойчив к умеренным нарушениям.

Можно ориентироваться и на следующие требования:

  • Эндогенные и экзогенные латентные переменные обычно измеряются многопунктовыми шкалами Лайкерта (как минимум порядка, лучше интервальными по допущению).

  • Индикаторы должны быть либо все рефлексивными, либо все формативными внутри одного конструкта; для формативных показателей особенно важно теоретическое обоснование и проверка мультиколлинеарности.

  • PLS-SEM допускает относительно малые выборки, но рекомендуется ориентироваться на правило «10-кратного числа»: размер выборки не меньше 10×максимальное число индикаторов на конструкт.

  • Для устойчивых оценок и бутстреппинга в прикладных исследованиях социальных наук часто рекомендуют иметь 150–300 наблюдений, если модель не совсем простая.

Распределения и масштаб данных

  • PLS-SEM не требует многомерной нормальности, поэтому подходит для слабо ненормальных и асимметричных распределений, а также для смешения шкал (например, Лайкерт + метрики).

  • Тем не менее сильные выбросы и крайне асимметричные распределения могут искажать оценки, поэтому рекомендуется предварительный анализ данных, трансформации или робастные варианты оценки.

Практические рекомендации

Как понять, в каком случае лучше использовать обычную модель SEM, основанную на ковариации, а когда лучше обратиться к методу частичных наименьших квадратов?

Выбор между covariance-based SEM (CB-SEM) и variance-based PLS-SEM определяется тем, может ли ковариационная модель быть реализована с помощью указанного количества индикаторов и параметров.

Критерии выбора

  • CB-SEM целесообразен, когда:
    • число индикаторов на конструкт умеренное;
    • цель — тестирование теории и оценка качества модели (χ², RMSEA и т.п.);
    • размер выборки достаточно большой (обычно более 200).
  • PLS-SEM предпочтителен, когда:
    • индикаторов на конструкт очень много (десятки–сотни);
    • модель содержит много латентных переменных и индикаторов;
    • интересует прежде всего прогноз и объяснённая дисперсия, а не показатели качества;
    • выборка относительно небольшая.

Таким образом, чтобы выбрать, нам нужно определиться, сколько у нас параметров в модели, и хватает ли нам данных (наблюдений), чтобы использовать CB-подход, или нам лучше обратиться к VB-подходу.

Пусть всего (p) наблюдаемых переменных (все индикаторы (x) и (y) вместе). Тогда выборочная матрица ковариаций (\(\mathbf{S}\)) имеет

\[ \frac{p(p+1)}{2} \]

уникальных элементов (дисперсии на диагонали и ковариации выше/ниже диагонали).

Число оцениваемых параметров модели обозначим как (k). В стандартной SEM‑модели оно включает:

  • для каждого индикатора:
    • факторную нагрузку (\(\lambda\));
    • дисперсию ошибки измерения;
  • параметры структурной части: пути (\(\gamma\), \(\beta\)), ковариации (\(\phi\)), дисперсии ошибок (\(\psi\)).

Тогда степени свободы модели:

\[ df = \frac{p(p+1)}{2} - k. \]

Пример с большим числом индикаторов

Пусть у нас 5 латентных переменных, у каждой по 200 индикаторов. Тогда:

\[ p = 5 \times 200 = 1000, \]

а число уникальных элементов матрицы ковариаций:

\[ \frac{p(p+1)}{2} = \frac{1000 \cdot 1001}{2} = 500\,500. \]

Минимальное число параметров в части измерения:

\[ k_{\text{meas}} \approx 2 \times 1000 = 2000 \]

(нагрузка + дисперсия ошибки на каждый индикатор) плюс параметры структурной части (пути и ковариации), допустим ещё 10–20. Тогда

\[ df \approx 500\,500 - 2\,020 \approx 498\,480. \]

При таком количестве степеней свободы:

  • требуется, чтобы объём выборки удовлетворял (\(N_{\min}\ge p\)), то есть (\(N_{\min} \ge 1000\));
  • тесты (χ², RMSEA и др.) становятся сверхчувствительными и отвергают модель из‑за микроскопических отклонений;
  • практически любая реалистичная модель будет статистически отвергнута, даже если теоретически она разумна.

Почему в этих условиях имеет смысл применять PLS-SEM?

В PLS-SEM:

  • не оценивается полная ковариационная структура \(\Sigma(\theta)\);
  • степени свободы в смысле \(\frac{p(p+1)}{2} - k\) не считаются, глобальный χ²‑тест отсутствует;
  • параметры структурной части оцениваются как коэффициенты OLS‑регрессий на оценках латентных переменных.

При очень большом числе индикаторов:

  • влияние выбора конкретных весов на структурные коэффициенты снижается (эффект «consistency at large» ослабевает);
  • PLS‑композиты становятся близки к факторным оценкам;
  • модель остаётся вычислимо устойчивой даже при умеренных объёмах выборки.

Практические советы

  • Использовать CB-SEM, если:
    • модель компактна (3–8 индикаторов на конструкт);
    • выборка достаточна;
    • важен тест глобального соответствия теории данным и сравнение конкурирующих моделей.
  • Использовать PLS-SEM, если:
    • очень много индикаторов на конструкт или модель в целом «тяжёлая»;
    • выборка ограничена;
    • основная цель — объяснённая дисперсия и предсказание, а не строгая подгонка матрицы воспроизведенных ковариаций исходным данным;
    • присутствуют формативные конструкты, создающие проблемы идентификации в CB-SEM.

Пример модели в JASP

В качестве примера рассмотрим модель из исследования, посвященного бразильскому футболу, представленную в (Rogers and Barboza 2024) и показывающую, как образ команды, лояльность, приверженность и некоторые другие характеристики команды и фанатского сообщества влияют на потребительское поведение фанатов.

Данные, необходимые для проведения анализа, можно скачать здесь (ссылка). Настоятельно рекомендуем с целью более глубокого понимания темы, познакомиться с полным текстом статьи.

В данном примере PLS-SEM был использован в большей степени для описательных целей, так как авторы хотели максимизировать объясненную дисперсию основной эндогенной переменной (“Fan-consumer”) и величину коэффициентов в структурной модели, их значимость. Кроме того, концептуальная модель опиралась на композитные (формирующие) конструкты и демонстрировала относительно высокую сложность при небольшой выборочной совокупности (n = 269).

Вот как выглядела модель (рис. 3):

Рис. 3. Теоретическая модель

Часть наблюдаемых переменных использовались как единичные индикаторы. Это в основном, социально-демографические и экономические показатели:

Переменная Английское обозначение Перевод values / coding (русский)
GENDER GENDER / HOMEM Пол 1 = Мужчина, 2 = Женщина
CASADO MARITAL_STATUS Семейное положение 1 = Женат/замужем (Married)
SOLTEIRO MARITAL_STATUS Семейное положение 1 = Холост (Single)
IDADE AGE Возрастная группа 1=до 18; 2=19–24; 3=25–30; 4=31–36; 5=37–42; 6=43–48; 7=49–54; 8=55–60; 9=старше 60
MEDIO EDUCATION Образование 1 = Среднее / Незаконченное высшее (High school/Incomplete higher)
SUPERIOR EDUCATION Образование 1 = Законченное высшее (Graduate)
RENDA INCOME Месячный доход 1=до R$1000; 2=R$1001–2500; 3=R$2501–5000; 4=R$5001–10000; 5=свыше R$10000 (в реалах)
PRATICA PLAYER Умение играть в футбол
  1. Да/ 0. Нет

Латентные переменные, рассчитываемые на основе композитных (формирующих) индикаторов:

var label_ru type values / coding (русский) construct
ST1 Команда из столицы штата binary 0 = команда из глубинки; 1 = команда из столицы штата Success
ST2 Количество титулов штата за 5 лет count неотрицательное целое число Success
ST3 Топ-4 национальной лиги за 5 лет binary 0 = нет; 1 = да Success
ST4 Значимый титул за 5 лет (нац/континент/мировой) binary 0 = нет; 1 = да Success
ST5 Команда из Юг/Юго-Восток binary 0 = другие регионы; 1 = Юг/Юго-Восток Success
ST6 Играет в Серии A binary 0 = нет; 1 = да Success
ST7 Количество значимых титулов за 5 лет count неотрицательное целое число Success
TC1 Частота покупок продукции клуба ordinal 1=Никогда; 2=Редко; 3=Иногда; 4=Часто; 5=Очень часто Consumer Fan
TC2 Годовые траты на клуб ordinal 0=Не трачу; 1=до R$50; 2=до R$100; 3=до R$500; 4=до R$1000; 6=более R$1000 Consumer Fan
TC3 Подписка на платный футбол binary 0=Нет; 1=Да Consumer Fan
TC4 Член фан-клуба binary 0=Нет; 1=Да (исключён из финальной модели) Consumer Fan
TC5 Потенциал дохода по каналу покупки composite сумма баллов: 0=нет/улица; 1=интернет/спортмагазины; 2=клубный/официальный магазин Consumer Fan
TC6 Потенциал дохода по типу продукта composite сумма баллов: 0=нет; 1=низкая стоимость; 2=форма/одежда Consumer Fan
OR1 Команда из провинции проживания binary 0=Нет; 1=Да Origins
OR2 Команда из провинции рождения binary 0=Нет; 1=Да Origins

Латентные переменные, представленные в классическом виде (как рефлективные):

var label_ru type values / coding (русский) construct
CP1 «Я настоящий фанат своего клуба» Likert 1–7 1=Полностью не согласен … 7=Полностью согласен Psych. Commitment
CP2 «Я очень предан своему клубу» Likert 1–7 1–7 Psych. Commitment
CP3 «Ничто не изменит мою преданность клубу» Likert 1–7 1–7 Psych. Commitment
CP4 «Не сменю клуб даже при неудачах» Likert 1–7 1–7 Psych. Commitment
CP5 «Защищу клуб публично, даже если будут проблемы» Likert 1–7 1–7 Psych. Commitment
CP6 «Не сменю клуб из-за друзей» Likert 1–7 1–7 Psych. Commitment
CP7 «Важно, чтобы клуб играл в главных чемпионатах» Likert 1–7 1–7 Psych. Commitment
CP8 «Долгосрочный успех клуба важен для меня» Likert 1–7 1–7 Psych. Commitment
LC1 «Часто смотрел матчи на стадионе» Likert 1–7 1–7 Behavioral Loyalty
LC2 «Буду часто смотреть на стадионе» Likert 1–7 1–7 Behavioral Loyalty
LC3 «Смотрел матчи клуба по ТВ» Likert 1–7 1–7 Behavioral Loyalty
LC4 «Буду смотреть матчи по ТВ» Likert 1–7 1–7 Behavioral Loyalty
LC5 «Следил за новостями о клубе» Likert 1–7 1–7 Behavioral Loyalty
LC6 «Буду следить за новостями» Likert 1–7 1–7 Behavioral Loyalty
LC7 «Купил несколько продуктов клуба» Likert 1–7 1–7 Behavioral Loyalty
LC8 «Куплю несколько продуктов клуба» Likert 1–7 1–7 Behavioral Loyalty
LC9 «Часто ношу цвета/эмблему клуба» Likert 1–7 1–7 Behavioral Loyalty
LC10 «Буду часто носить цвета/эмблему» Likert 1–7 1–7 Behavioral Loyalty
LC11 «Часто участвовал в обсуждениях команды» Likert 1–7 1–7 Behavioral Loyalty
LC12 «Буду участвовать в обсуждениях» Likert 1–7 1–7 Behavioral Loyalty
IMG1 «Мой клуб — большой клуб» Likert 1–7 1–7 Team Image
IMG2 «У клуба хорошая команда» Likert 1–7 1–7 Team Image
IMG3 «Клуб выглядит амбициозным» Likert 1–7 1–7 Team Image
IMG4 «Клуб выглядит смелым» Likert 1–7 1–7 Team Image
IMG5 «Клуб хорошо управляется» Likert 1–7 1–7 Team Image
IMG6 «Клуб не затронут скандалами» Likert 1–7 1–7 Team Image
IMG7 «У клуба хороший стадион/центр подготовки» Likert 1–7 1–7 Team Image
IMG8 «Игроки клуба решительны» Likert 1–7 1–7 Team Image
IMG9 «Администрация клуба компетентна» Likert 1–7 1–7 Team Image
IMG10 «Результаты клуба очень хороши» Likert 1–7 1–7 Team Image

Гипотезы модели, тестируемые в структурной части:

  • Практика игры в футбол (PLAYER) зависит от пола (GENDER)

  • Возраст (AGE) определяет доходы (INCOME), семейное положение (MARITAL STATUS) и уровень образования (EDUCATION)

  • Потребительское поведение (COMSUMER FAN) (траты на всякие фанатские штуки) зависят от доходов, возраста (INCOME) и приверженности к команде (COMMITMENT)

  • Сама приверженность (COMMITMENT) зависит от лояльности (LOYALTY) к команде, имиджа команды (TEAM IMAGE), наличия личного опыта игры в футбол (PLAYER) и происхождения команды (ORIGINS), за которую болеет респондент (команда из родного города или из того, где он сейчас находится)

  • Лояльность (LOYALTY) также зависит от происхождения команды (ORIGINS), опыта игры (PLAYER) и имиджа (TEAM IMAGE)

  • На оценку имиджа команды (TEAM IMAGE) влияет успех команды (TEAM SUCCESS) и личный опыт игры в футбол (PLAYER)

Для того, чтобы провести анализ в JASP, необходимо выполнить следующие шаги:

  1. Загрузить данные в формате .csv

  2. Перевести все переменные в формат Scale (у каждого столбика нажать на иконку и выбрать “линеечку”).

    Рис. 4. Перевод переменных в формат scale.
  3. Выбрать в меню SEM, затем Partial Least Squares SEM:

  4. В окно модели внести следующий синтаксис для базовой модели:

    # Внешний контур: рефлективные латентные переменные

    Image =~ IMG1 + IMG2 + IMG3 + IMG4 + IMG5 + IMG6 + IMG7 + IMG8 + IMG9 + IMG10

    Loyalty =~ LC1 + LC2 + LC3 + LC4 + LC5 + LC6 + LC7 + LC8 + LC9 + LC10 + LC11 + LC12

    Commitment =~ CP1 + CP2 + CP3 + CP4 + CP5 + CP6 + CP7 + CP8

    # Внешний контур: композитные латентные переменные

    Success <~ ST1 + ST2 + ST3 + ST4 + ST5 + ST6 + ST7

    ConsumerFan <~ TC1 + TC2 + TC3 + TC4 + TC5 + TC6

    Origins <~ OR1 + OR2

    # Внешний контур: наблюдаемые переменные и уникальные индикаторы

    Age <~ IDADE

    Education <~ MEDIO + SUPERIOR

    Gender <~ GENDER

    Player <~ PRATICA

    Income <~ RENDA

    MaritalStatus <~ CASADO + SOLTEIRO

    # Внутренний контур: структурная модель

    Education ~ Age

    MaritalStatus ~ Age

    Player ~ Age + Gender

    Income ~ Education + Age + MaritalStatus

    Image ~ Player + Success

    Loyalty ~ Player + Image + Origins

    Commitment ~ Player + Image + Loyalty + Origins

    ConsumerFan ~ Income + Age + Commitment

  5. Установить следуюшие настройки: в блоке вычисления ошибок выбрать метод Robust - Bootstrap (бутстрэп - это непараметрический статистический метод ресэмплинга, то есть многогратного извлечения выборок меньшего объема из исходных данных, который оценивает распределение статистики и её точность без предположений о форме распределения данных). Количество выборок - 5000 (в оригинальной статье 10000, но это потребует дополнительного времени и оперативной памяти:

Дополнительно, в блоке вывода, попросим следующие статистики:

  1. Запустить модель (нажать на Ctrl + Enter).

  2. Рассмотрим основные результаты. Первая таблица в выводе – это, как всегда, общие показатели модели. Видим, что у нас очень большой хи-квадрат, но поскольку это только предварительный анализ, для нас это не главное, так же как и индексы, которые показывают не очень хорошие результаты (CFI = 0,72, RMSEA = 0,08).

Adjusted R-квадрат - высок только у латентной переменной Commitment, у остальных переменных не превышает 0,6.

Следом идет таблица с результатом теста Мардиа, проверяющим многомерную нормальность данных. Нулевая гипотеза этого теста заключается в том, что многомерный эксцесс и многомерная асимметрия не отличаются от нормальных, а наши p-значения указывают на существенные отклонения. Однако, повторимся, что PLS-подход ориентируется на другие маркеры качества.

В оригинальной статье авторы предлагают следующие критерии для оценки базовой PLS-модели.

  • Во-первых, такая модель должна включать по меньшей мере одну формативную и/или рефлективную модель. Структурные связи могут включать эффекты модерации и медиации.

  • В случае, если модель PLS-SEM не включает модель измерения (латентные переменные), она рассматривается в качестве путевой модели, соответственно, в ней оценивается только структурная модель.

  • Если в модели измерения есть рефлективные индикаторы, используется алгоритм PLSc (Consistent PLS). Почти во всех программах настройки по умолчанию влючают весовые коэффициенты - модель A (корреляционные веса) для рефлективных моделей и модель B (регрессионные веса) для формативной модели. Для оценки параметров рекомендуется использовать бутсрэп с 10000 выборок.

В соответствии с такой структурой, оценку можно разделить на два этапа:

  1. Оценка измерительных модели (outer models) — Stage 1.

  2. Оценка структурной модели (inner model) — Stage 2.

Этап 1. Оценка модели измерения - Measurement Model Evaluation (outer models)

Этап1.1. Reflective (рефлексивные конструкты)

Проверка на внутреннюю согласованность - Internal Consistency Reliability

  • Показатели: Cronbach’s alpha, composite reliability \(\rho\)_C, \(\rho\)_A.

  • Требования:

    • 0.70–0.95 — хорошая надежность.

    • 0.60–0.70 — допустимо для исследовательских работ.

    • 0.95 — подозрение на избыточные, дублирующие индикаторы.

Конвергентная валидность - Convergent Validity

  • Показатели: факторные нагрузки, AVE (Average options variance extracted - средняя оцененная дисперсия).

  • Требования:

    • Нагрузки > 0.70; диапазон 0.60–0.70 допустим при эксплораторном подходе.

    • AVE > 0.50.

Дискриминантная валидность - Discriminant Validity (HTMT)

Дискриминантная валидность показывает, что конструкт эмпирически отличим от других конструктов, то есть индикаторы не «мешают» измерять соседние латентные переменные.

  • Показатель: HTMT (heterotrait–monotrait ratio).

  • Требования:

    • HTMT < 0.90, если конструкты концептуально похожи.

    • HTMT < 0.85, если конструкты концептуально различны.

    • Доверительный интервал 95% (по бутстрэпу) не должен включать 1.0.

Stage 1.2. Composite (формативные / композитные конструкты)

Конвергентная валидность - Convergent Validity (Redundancy analysis)

  • Метод: регрессия формативно измеряемого латентного переменного (LV) на рефлексивно измеряемую LV.

  • Требование: коэффициент пути формативный → рефлексивный > 0.70.

Коллинеарность - Collinearity

  • Показатель: VIF между формативными индикаторами.

  • Требования:

    • VIF < 5.0 — мягкий порог.

    • VIF < 3.0 — строгий порог.

Значимые веса и нагрузки

  • Показатели: внешние веса (outer weights), внешние нагрузки (outer loadings), p‑values.

  • Требования:

    • Сохранять индикаторы с значимыми весами (p < 0.05).

    • Если вес незначим, но loading > 0.50, индикатор можно оставить.

    • Если вес незначим и loading < 0.50, индикатор обычно удаляют.

Stage 2. Оценка структурной модели - Structural Model Evaluation (inner model)

Коллинеарность - Collinearity

Warning

Коллинеарность - это высокая корреляция между индикаторами формативных конструктов или предикторами в структурной модели, которая может искажать оценки весов и регрессионных коэффициентов в структурной модели.

  • Показатель: VIF для предикторов каждого эндогенного конструкта.

  • Требование: VIF < 5.0 (желательно < 3.0) — отсутствие проблемной мультиколлинеарности.

Значимость коэффициентов

  • Показатели: p‑values путей, эффект‑size f².

  • Интерпретация f² (Cohen):

    • 0.02 — малый эффект.

    • 0.15 — средний эффект.

    • 0.35 — крупный эффект.

Предсказательная способность модели (внутренняя)

  • Показатель: R² эндогенных переменных.

  • Типичные ориентиры:

    • R² ≈ 0.75 — высокая объясненная дисперсия.

    • R² ≈ 0.50 — средняя.

    • R² ≈ 0.25 — низкая, но всё ещё осмысленная в социальных науках.

Сравнение моделей - Model Comparisons

  • Критерии: BIC или GM (geometric mean).

  • Требование: выбирается модель с минимальным BIC или GM по сравнению с альтернативными спецификациями.

Все основные этапы и показатели представлены на схеме ниже. Ниже рассматриваются все вопросы, кроме использования подхода для предсказания новых значений и сравнения моделей (крайний правый столбец).

Итак, попробуем отследить эти этапы на наших данных.

За таблицей с тестом на нормальность можно найти таблицу с коэффициентами согласованности для рефлексивных переменных (Reliability). Порог: >0.7 приемлемо, >0.8 хорошо, >0.9 отлично. У нас все показатели в норме.

Далее посмотрим показатели весов и нагрузок.

У индикаторов ST1, ST4 и ST7 незначимые веса.

У рефлективных индикаторов проблемы у IMG1, IMG6, IMG7, IMG9, LC1, LC2, CP4, CP6, TC3, TC4.

И, наконец, последняя таблица показывает корреляцию между конструктами. Нас должна насторожить корреляция \(\rho\)= 0.954 между переменными лояльности и приверженности (Commitment - Loyalty), указывающая на нехватку дискриминантной валидности (оба конструкта, по сути, означают одно и то же).

  1. Чтобы выполнить требования, указанные в пп. 1.1. и 1.2 на цветной схеме, нам нужно сделать еще некоторые манипуляции.

Для проверки коллинеарности у композитных индикаторов необходимо провести дополнительно регрессионный анализ: в качестве зависимой переменной указывается любая переменная, а в качестве независимых - все индикаторы латентных переменных - как рефлективных, так и формирующих.

Проверка на коллинеарность проводится с помощью критерия Variance inflation factor (VIF), который в строгом варианте должен быть менее 3, в более мягком - менее 5. В нашем случае VIF > 4.9 у пунктов LC3, LC4, LC5, LC6 и LC12.

Для того, чтобы оценить конвергентную и дискриминантную валидность у рефлексивных индикаторов, нам нужно сделать конфирматорный факторный анализ, в настройках которого нужно выбрать критерии AVE и HTMT.

Результаты показывают, что третий фактор (имидж команды) слегка не дотягивает до нормы (0,432), хотя у авторов в статье с этим все в порядке. И в очередной раз мы видим, что дискриминантная валидность между факторами 1 и 2 также не достигается (0,92) - commitment & loyalty.

Если дополнительно в настройках указать модифицирующие индексы, то можно увидеть, что в модели есть довольно сильные перекрестные нагрузки между LC3 и LC4.

Прежде, чем перейти к оценке структурной модели, мы должны сначала исключить из модели все “сомнительные” индикаторы и латентные переменные, не прошедшие проверку. Это итеративный процесс, в котором из модели последовательно удаляются индикаторы, делается новая проверка - весов, нагрузок, коллинеарности, дискриминантной валидности, AVE, HT

Авторы сравнивали исходную модель с моделью, которая получилась у них после увления нерелевантных индикаторов, и моделью, которая описывалась в статье, где была представлена методика оценки латентных индикаторов. На рисунке ниже можно увидеть, какие индикаторы были удалены в обоих случаях.

Воспользуемся последней моделью (после удаления всех индикаторов), чтобы получить коэффициенты для структурной модели.

Нам понадобится следующий синтаксис:

# Внешний контур: рефлективные латентные переменные

Image =~ IMG2 + IMG3 + IMG4 + IMG5 +IMG8 + IMG10

Loyalty =~ LC7 + LC8 + LC9

Commitment =~ CP1 + CP2 + CP5 + CP7 + CP8

# Внешний контур: композитные латентные переменные

Success <~ ST3 + ST4 +ST7

ConsumerFan <~ TC1 + TC2 + TC3 + TC5 + TC6

Origins <~ OR1 + OR2

# Внешний контур: наблюдаемые переменные и уникальные индикаторы

Age <~ IDADE

Education <~ MEDIO + SUPERIOR

Gender <~ GENDER

Player <~ PRATICA

Income <~ RENDA

MaritalStatus <~ CASADO + SOLTEIRO

# Внутренний контур: структурная модель

Education ~ Age

MaritalStatus ~ Age

Player ~ Age + Gender

Income ~ Education + Age + MaritalStatus

Image ~ Player + Success

Loyalty ~ Player + Image + Origins

Commitment ~ Player + Image + Loyalty + Origins

ConsumerFan ~ Income + Age + Commitment

Сделаем бутстрэп с 5000 выборок.

Предварительно проверим, что наши латентные переменные теперь соответствуют всем необходимым допускам.

В настройках CFA укажем, первый фактор - это имидж, второй фактор - лояльность, третий - приверженность (как это делать, можно посмотреть выше).

Индекс AVE показывает, что теперь по всем факторам средняя доля объясненной дисперсии выше 50%, индекс HTMT тоже не привышает 0,832.

По данным регрессионного анализа, VIF < 3 по всем композитным индексам.

Рассмотрим таблицу с регрессионным коэффициентам. Согласно результатам анализа у нас подтверждаются практически все гипотезы, кроме влияния на лояльность местоположения команды (Origins).

По поводу ключевой латентной переменной была выявлена отрицательная взаимосвязь с возрастом и положительная связь с доходами и приверженностью, в то время как лояльность зависит от имиджа команды и опыта игры в футбол.

Сравним с коэффициентами из статьи, у нас получилось очень похоже.

Таким образом, в данном примере нам удалось повторить основные этапы анализа, включая проверку измерительной части моделирования, включающей анализ латентных переменных с рефлективными и формирующими индикаторами, проверку конвергентной и дискриминантной валидности, колленеарности, анализ структурных коэффициентов.

Самостоятельная работа

В качестве самостоятельной работы необходимо провести анализ с помощью метода PLS на датасете influencer_data из Partial Least Squares Structural Equation Modeling (PLS-SEM) Using R - A Workbook (2021) Hair, J.F. (Jr), Hult, T.M., Ringle, C.M., Sarstedt, M., Danks, N.P., and Ray, S. Мы будем использовать данные об инфлюенсерах. В датасете содержатся данные по 24 переменным:

  • Идентификация с инфлюенсером (SIC – Self–Influencer Connection):

    • sic_1 — Инфлюенсер отражает то, кто я есть.

    • sic_2 — Я могу отождествить себя с инфлюенсером.

    • sic_3 — Я чувствую личную связь с инфлюенсером.

    • sic_4 — Я (могу) использовать инфлюенсера, чтобы выразить, кто я есть, перед другими людьми.

    • sic_5 — Я думаю, что инфлюенсер (может) помочь(ает) мне стать тем человеком, каким я хочу быть.

    • sic_6 — Я считаю инфлюенсера «частью себя».

    • sic_7 — Инфлюенсер мне хорошо подходит.

    • sic_global — Моя личность и личность инфлюенсера соотносятся между собой.

    Восприятие качества продукта (PQ – Perceived Quality):

    • pq_1 — У продукта отличное качество.

    • pq_2 — Продукт выглядит надёжным и долговечным.

    • pq_3 — У продукта будет меньше проблем.

    • pq_4 — У продукта превосходные качественные характеристики.

    Нравится ли продукт (PL – Product Liking):

    • pl_1 — Мне не нравится продукт (обратное кодирование).

    • pl_2 — Продукт мне нравится.

    • pl_3 — Представленный продукт вызывает у меня положительные эмоции.

    • pl_4 — Продукт кажется мне интересным.

    Намерение приобрести продукт (PI – Purchase Intention):

    • pi_1 — Очень вероятно, что я куплю этот продукт.

    • pi_2 — Я куплю этот продукт, когда он мне понадобится.

    • pi_3 — Я определённо готов(а) попробовать этот продукт.

    • pi_4 — Я бы порекомендовал(а) этот продукт своим друзьям.

    • pi_5 — Я готов(а) приобрести этот продукт.

    Восприятие компетентности инфлюенсера (PIC – Perceived Influencer Competence):

    • pic_1 — Инфлюенсер квалифицирован(а).

    • pic_2 — Инфлюенсер компетентен(тна).

    • pic_3 — Инфлюенсер является экспертом.

    • pic_4 — Инфлюенсер имеет опыт.

    • pic_5 — Инфлюенсер обладает знаниями.

    Другие переменные:

    • wtp — Укажите, сколько вы готовы заплатить (в евро) за представленный продукт.

    • influencer_group — Бинарная переменная, указывающая, к какой группе принадлежит инфлюенсер.

Протестируйте следующую модель (будьте внимательны и определите, какие индикторы формирующие, а какие - отражающие):

В ответе представьте следующие этапы:

  1. Проверка базовой модели (веса, нагрузки, R^2), сделать бутстрэп, 5000 выборок.

  2. Для композитных (формативных) латентных переменных сделать проверку коллинеарности на основе показателя VIF.

  3. Для латентных переменных с рефлективными индикаторами сделать проверку внутренней согласованности (на основе альфа Кронбаха и других коэффициентов), конвергентной валидности (через величину нагрузок и показатель AVE), а также проверку дискриминантной валидности самих латентных переменных (показатель HTMT).

  4. Если возникнут проблемы, итеративно довести модель до приемлемого качества.

  5. Оценить коэффициенты структурной модели, сделать выводы.

  6. Все результаты сопроводить подробными комментариями и выводами в JASP.

  7. В качестве ответа прикрепить файл проекта в JASP.

References

Haenlein, Michael, and Andreas Kaplan. 2004. “A Beginner’s Guide to Partial Least Squares Analysis.” Understanding Statistics 3 (4): 283–97.
Rogers, P., and F. Barboza. 2024. “Unlocking VB-SEM: Practical PLS-SEM Tutorial Using JASP for Variance-Based Structural Equation Modeling.” 2ne8f_v1. Center for Open Science.