Модель частичных наименьших квадратов / Partial Least Squares Structural Equation Modeling (PLS-SEM)
Введение
Partial Least Squares Structural Equation Modeling (PLS-SEM, модель частичных наименьших квадратов) представляет собой так называемый variance-based подход к моделированию структурных уравнений, показавший свои преимущества при работе с большим числом индикаторов и малыми выборками. В отличие от covariance-based SEM (подхода, основанного на ковариации), PLS максимизирует объясненную дисперсию зависимых переменных.
План
- Ограничения классических методов “первого поколения”
- Еще раз о теоретической модели SEM
- Рефлективные (Reflective) vs Формирующие (Formative) индикаторы
- Базовый алгоритм PLS
- Практические рекомендации
- Пример модели в JASP
- Самостоятельная работа
Ограничения классических методов «первого поколения»
Многомерные методы первого поколения, такие как регрессионный анализ, дискриминантный анализ, логистическая регрессия, дисперсионный анализ, а также факторный или кластерный анализ, относятся к основному набору статистических инструментов, которые могут использоваться для выявления или подтверждения теоретических гипотез на основе анализа эмпирических данных.
Многие ученые по всему миру использовали в прошлом и, наверняка, будут использовать эти методы в будущем для создания научных открытий, которые изменили наши представления о мире.
Например, с помощью факторного анализа Ч. Спирмен (1904) обосновал наличие общего фактора интеллекта (g), а Гирт Ховстеде (1980) провел свои знаменитые кросс-культурные измерения, выведя пять факторов, по которым можно различать культуру (в том числе корпоративную) : индивидуализм / коллективизм, дистанция власти, мужественность / женственность и избегание неопределенности. Эдвард Альтман (1968) на основе дискриминантного анализа предложил Z-формулу, учитывающую пять ключевых коэффициентов, описывающих финансовое состояние предприятий, сделавшую прорыв в предсказании их банкротства и устойчивости на рынке.
Однако, у всех этих методов есть три довольно существенных ограничения:
- Предположение о простой структуре модели. Например, в регрессионном анализе только одна переменная назначается как зависимая, а другие определяются как независимые, другие отношения не учитываются.
- Допущение, что все переменные можно считать наблюдаемыми, то есть полученными в результате реальных экспериментов. Хотя факторный анализ позволяет анализировать латентные переменные, установить взаимосвязи между ними невозможно.
- Предположение, что все переменные измеряются без ошибки, что может ограничивать их применимость в некоторых исследовательских ситуациях.
Методология SEM, собственно, и была разработана для преодоления ограничений методов первого поколения, став для них конкурентоспособной альтернативой.
SEM позволяет одновременно моделировать отношения среди множества независимых и зависимых конструктов, поэтому в ней различают не зависимые и независимые переменные, а проводят различие между экзогенными и эндогенными (латентными) переменными.
Первые представляют собой переменные, которые не объясняются исследуемой моделью (т.е. всегда выступают в роли независимых переменных), а вторые, напротив, являются переменными, объясняемыми отношениями, содержащимися в модели.
Структура SEM-модели
Мы уже знаем, что SEM может использоваться (и часто используется) для проверки теоретических предположений на эмпирических данных. Поэтому крайне важно иметь представление о том, как теоретические положения связываются с различными частями модели SEM.
Согласно Haenlein and Kaplan (2004) теория может содержать три различных типа концептов:
- теоретические концепты, которые представляют собой «абстрактные, ненаблюдаемые свойства или атрибуты социального явления» (например, справедливость, которую нельзя “увидеть”, сложно подобрать индикаторы, существует множественность трактовок и интерпретаций;
- эмпирические концепты, которые «относится к свойствам или отношениям, наличие или отсутствие которых может быть установлено посредством прямых наблюдений» (например, доход, частота сердечных сокращений, длительность рабочего дня и т.д.);
- производные концепты, которые являются ненаблюдаемыми (как теоретические концепты), но «в отличие от теоретических концептов связаны с какими-либо эмпирическими концептами» (например, дипрессия - это совокупность симптомов, которые можно наблюдать и по их наличию поставить диагноз).
Соответственно, существуют три возможных типа отношений:
- ненаблюдаемые гипотезы, которые связывают теоретические концепты с другими теоретическими концептами;
- теоретические определения, которые переводят теоретические концепты в производные; и
- правила соответствия, которые связывают теоретические или производные концепты с эмпирическими и служат «для предоставления эмпирического значения теоретическим терминам» (то, что социологи обычно называют термином «операционализация»).
Используя эту схему, мы можем разработать исследовательскую модель, которая представляет какую-то определенную теорию, переведя теоретические и производные концепты в ненаблюдаемые (латентные) переменные, а эмпирические концепты в индикаторы, связанные с определенными гипотезами, которые могут касаться ненаблюдаемых гипотез, теоретических определений или правил соответствия.
Представим это все в гипотетической исследовательской модели (рис. 2), используя следующие обозначения:
- \(\eta\) (эта) — латентная эндогенная переменная (зависимый конструкт).
- \(\xi\) (кси) — латентная экзогенная переменная (независимый конструкт).
- \(\zeta\) (дзета) — случайный возмущающий термин (ошибка в структурном уравнении).
- \(\gamma\) (гамма) — структурный коэффициент связи между латентными переменными.
- \(\phi\) (фи) — некаузальная (корреляционная) связь между двумя латентными экзогенными переменными.
- \(y_i\) — индикаторы (наблюдаемые переменные) эндогенных латентных переменных.
- \(\epsilon_i\) (эпсилон) — ошибки измерения индикаторов эндогенных переменных.
- \(\lambda_{yi}\) — нагрузки индикаторов эндогенных переменных (lambda y).
- \(x_i\) — индикаторы (наблюдаемые переменные) экзогенных латентных переменных.
- \(\delta_i\) (дельта) — ошибки измерения индикаторов экзогенных переменных.
- \(\lambda_{xi}\) — нагрузки индикаторов экзогенных переменных (lambda x).
Основными для этой модели являются следующие уравнения.
Модель измерения экзогенных латентных переменных
Первый блок уравнений связывает индикаторы экзогенных переменных (x) с их ошибками (δ) и латентными экзогенными переменными (ξ):
\[ \begin{align} x_1 &= \lambda_{x11} \xi_1 + \delta_1 \\ x_2 &= \lambda_{x21} \xi_1 + \delta_2 \\ x_3 &= \lambda_{x32} \xi_2 + \delta_3 \\ x_4 &= \lambda_{x42} \xi_2 + \delta_4 \\ x_5 &= \lambda_{x53} \xi_2 + \delta_5 \\ x_6 &= \lambda_{x63} \xi_2 + \delta_6 \end{align} \]
| Символ | Значение | Размерность | Описание |
|---|---|---|---|
| \(\mathbf{x}\) | Вектор наблюдаемых индикаторов | \((p \times 1)\) | Манифестные переменные \(x_1, x_2, \dots, x_6\) |
| \(\mathbf{\Lambda}_x\) | Матрица факторных нагрузок | \((p \times m)\) | Факторные нагрузки \(\lambda_{x11}, \lambda_{x21}, \dots\) (0-1) |
| \(\mathbf{\xi}\) | Вектор латентных экзогенных | \((m \times 1)\) | Латентные независимые \(\xi_1, \xi_2, \dots, \xi_6\) |
| \(\mathbf{\Delta}\) | Вектор ошибок измерения | \((p \times 1)\) | Ошибки \(\delta_1, \delta_2, \dots, \delta_6\) |
Модель измерения для эндогенных латентных переменных
Второй блок описывает взаимосвязи между индикаторами эндогенных переменных (y), их ошибками измерения (ε), и соответствеющими им эндогенными латентными переменными (η ):
\[ \begin{align} y_1 &= \lambda_{y11} \eta_1 + \epsilon_1 \\ y_2 &= \lambda_{y21} \eta_1 + \epsilon_2 \\ y_3 &= \lambda_{y32} \eta_2 + \epsilon_3 \\ y_4 &= \lambda_{y42} \eta_2 + \epsilon_4 \end{align} \]
| Символ | Значение | Размерность | Описание |
|---|---|---|---|
| \(\mathbf{y}\) | Вектор наблюдаемых индикаторов | \((q \times 1)\) | Манифестные \(y_1, y_2, \dots, y_q\) |
| \(\mathbf{\Lambda}_y\) | Матрица факторных нагрузок | \((q \times n)\) | Нагрузки \(\lambda_{y11}, \lambda_{y21}, \dots\) |
| \(\mathbf{\eta}\) | Вектор латентных эндогенных | \((n \times 1)\) | Зависимые конструкты \(\eta_1, \eta_2, \dots, \eta_n\) |
| \(\mathbf{\epsilon}\) | Вектор ошибок измерения | \((q \times 1)\) | Ошибки \(\epsilon_1, \epsilon_2, \dots, \epsilon_q\) |
Структурная модель
В конечном итоге, третья часть моделирует отношения меду латентными эндогенными переменными (η) и экзогенными (ξ) переменными:
\[ \begin{align} \eta_1 & = \gamma_{11}\xi_1 + \zeta_1\\ \eta_2 & = \beta_{21}\eta_1+ \gamma_{21}\xi_1+\gamma_{22}\xi_2+\gamma_{23}\xi_3+\zeta_2 \end{align} \]
| Символ | Значение | Размерность | Описание |
|---|---|---|---|
| \(\mathbf{\eta}\) | Латентные эндогенные (слева) | \((n \times 1)\) | Зависимые конструкты |
| \(\mathbf{B}\) | Коэффициенты эндогенных связей | \((n \times n)\) | Внутриэндогенные \(\beta_{21}\) (от \(\eta_1\) к \(\eta_2\)) |
| \(\mathbf{\Gamma}\) | Коэффициенты экзогенных связей | \((n \times m)\) | Экзогенно-эндогенные \(\gamma_{11}, \gamma_{21}, \gamma_{22}, \dots\) |
| \(\mathbf{\xi}\) | Латентные экзогенные | \((m \times 1)\) | Независимые конструкты |
| \(\mathbf{\zeta}\) | Структурные ошибки | \((n \times 1)\) | Ошибки уравнения \(\zeta_1, \zeta_2, \dots\) |
Можно представить все уравнения в более компактном матричном виде:
Модель измерения для экзогенных переменных: \[\mathbf{x} = \mathbf{\Lambda}_x \mathbf{\xi} + \mathbf{\Delta}\\(1)\]
Модель измерения для эндогенных переменных: \[\mathbf{y} = \mathbf{\Lambda}_y \mathbf{\eta} + \mathbf{\epsilon}\\(2)\]
Структурная модель: \[\mathbf{\eta} = \mathbf{B}\mathbf{\eta} + \mathbf{\Gamma}\mathbf{\xi} + \mathbf{\zeta}\\(3)\]
Где: \(\mathbf{\Lambda}_x\) — матрица факторных нагрузок экзогенных переменных \(\mathbf{\Lambda}_y\) — матрица факторных нагрузок эндогенных переменных \(\mathbf{\xi}\) — латентные экзогенные, \(\mathbf{\eta}\) — латентные эндогенные переменные, \(\mathbf{\Delta}\) — ошибки измерения экзогенных индикаторов \(\mathbf{\epsilon}\) — ошибки измерения эндогенных индикаторов, \(\mathbf{B}\) — матрица эндогенных связей (η влияет на η), \(\mathbf{\Gamma}\) — матрица структурных коэффициентов от экзогенных к эндогенным.
Последнее уравнение (3) представляет как раз ненаблюдаемые гипотезы и теоретические опреления, тогда как первое (1) и второе (2) уравнения являются правилами соответствия.
Рефлективные, отражающие (Reflective) и формирующие (Formative) индикаторы
Наблюдаемые индикаторы могут быть распределены на две группы (и мы уже это обсуждали):
(a) рефлективные, отражающие (reflective) индикаторы, которые зависят от конструкта (например, если рассматривать депрессию как такой конструкт, то симптомы как раз и будут зависеть от ее наличия и выраженности)
(b) формирующие, также известные как причинные индикаторы, которые, напротив, приводят к изменению в ненаблюдаемой (латентной) переменной (Bollen & Lennox, 1991).
Рефлексивные индикаторы могут быть выражены как функция от их латентных переменных, например:
\[ y1 = λy_1 η + ε_1\\ y2 = λy_2 η + ε_2\\ y3 = λy_3 η + ε_3 \]
| Тип | Модель | Корреляция индикаторов | Пример |
|---|---|---|---|
| Reflective | \(y_i = \lambda_{yi} \eta_i + \epsilon_i\) | Высокая | “Оперативность” |
| Formative | \(\xi_i = \beta_{i1}x_1 + \beta_{i2}x_2 + \dots\) | Произвольная | “Стресс” |
Формативные индикаторы в SEM не являются следствием латентной переменной, а сами формируют её, поэтому уравнение записывают так:
\[ \eta = \gamma_{x1} x_1 + \gamma_{x2} x_2 + \gamma_{x3} x_3 + \zeta \]
где \(\gamma_{x_1}\), \(\gamma_{x_2}\), \(\gamma_{x_3}\) — веса (коэффициенты) индикаторов \(x_1\), \(x_2\), \(x_3\), а \(\zeta\) — ошибка уравнения.
Таким образом, если ненаблюдаемая переменная порождает наблюдаемое поведение, как в случае личностных черт или установок, используют рефлективные индикаторы (например, латентная переменная восприятия времени «оперативность» определяется индикаторами выполнение срочных запросов, пунктуальность в соблюдении сроков, скорость ответа на телефонные звонки).
Если же конструкт понимается как комбинация формирующих его индикаторов, применяют формативные индикаторы (например, «стресс» как сочетание потери работы, развода, недавней аварии, смерти близкого).
Еще одно существенное отличие:
- у рефлективных индикаторов ожидается высокая взаимная корреляция,
- у формативных индикаторов корреляции могут быть положительными, отрицательными или нулевыми, и изменение одного индикатора не требует аналогичного изменения других.
В приведенных примерах ожидается, что человек с более высоким уровнем оперативности будет способен выполнять срочные поручения И будет более пунктуальным И будет быстрее отвечать на звонки. С другой стороны, уровень жизненного стресса не обязательно предполагает, что все несчастья (потеря работы, развод и какой-то инцидент) произойдут одновременно.
Базовый алгоритм PLS
Существует два основных подхода к оцениванию параметров SEM‑модели:
основанный на ковариации (все, что мы делали до сих пор относилось именно к этому подходу)
основанный на дисперсии.
Ковариационный подход нацелен на то, чтобы минимизировать расхождение между матрицей ковариаций в выборочной совокупности и матрицей ковариаций, которую предсказывает теоретическая модель. Иначе говоря, процедура оценивания параметров подбирает такие значения, при которых модель максимально точно «воспроизводит» эмпирическую матрицу ковариаций наблюдаемых переменных.
Подход, основанный на дисперсии, как раз и реализуется через PLS (Partial Least Squares). В отличие от ковариационного SEM, PLS не стремится восстановить матрицу ковариаций. Его цель — максимизировать долю дисперсии зависимых латентных переменных, объясняемую латентными предикторами. Как и любая SEM‑модель, PLS‑модель включает структурную часть (связи между латентными переменными) и измерительную часть (связь латентных переменных с индикаторами). Дополнительно в PLS есть третий компонент — система весов, с помощью которой вычисляются «оценки» (scores) латентных переменных на уровне отдельных наблюдений.
При ковариационном подходе сначала оцениваются параметры модели, а затем на их основе вычисляются значения латентных переменных для наблюдений как результат регрессии индикаторов на латентные факторы. В PLS всё делается в обратном порядке: сначала для каждой латентной переменной строятся её оценки как линейные комбинации соответствующих индикаторов; эти линейные комбинации рассматриваются как “прокси” для скрытых переменных. Веса при индикаторах подбираются так, чтобы полученные оценки латентных переменных содержали максимум дисперсии предикторов. Неявное допущение здесь состоит в том, что любая наблюдаемая вариативность в рамках модели считается содержательно значимой и подлежащей объяснению.
Используя найденные веса, можно для каждого наблюдения получить значения всех латентных переменных, которые вычисляются как взвешенные суммы их индикаторов. После этого вся модель сводится к набору обычных регрессий по методу наименьших квадратов между полученными латентными оценками.
В этом и состоит базовая идея PLS:
оценить веса, связывающие индикаторы с латентными переменными;
по этим весам вычислить оценки латентных переменных;
оценить структурные связи между латентными переменными с помощью OLS‑регрессий.
Из такого описания следует, что ключевой этап PLS‑анализа — как раз оценивание весов. Можно было бы формально присвоить всем индикаторам одинаковые веса, но у такого решения две серьёзные проблемы.
Во‑первых, нет теоретического основания считать вклад всех индикаторов одинаковым, и при умеренном числе индикаторов тип весов будет заметно влиять на итоговые структурные коэффициенты.
Во‑вторых, индикаторы различаются по надёжности, а значит более надёжные должны влиять сильнее, чем менее надёжные.
Поэтому в PLS применяется более сложная двухшаговая процедура оценивания весов.
- На первом шаге (внешняя аппроксимация) для каждой латентной переменной рассчитываются её оценки как взвешенные суммы её индикаторов, например, \(\eta_2 = w_1y_3 + w_2 y_4\), веса при этом выбираются по принципу, похожему на анализ главных компонент для рефлективных индикаторов или на регрессионную модель для формативных.
- На втором шаге (внутренняя аппроксимация) оценки латентных переменных пересчитываются как взвешенные средние «соседних» латентных переменных, связанных с ними в структурной модели: \(\eta''_2 = w_3\eta_1' + w_4\xi_1' + w_5\xi_2' + w_6\xi_3'\) . Существуют разные схемы вычисления этих внутренних весов (центроид, факторный подход, взвешивание путей), но выбор между ними обычно мало влияет на конечные результаты. Используя новые оценки латентных переменных, пересчитывают веса в измерительной части — и цикл «внешняя/внутренняя аппроксимация» повторяется до сходимости.
Поскольку PLS относится к методам с «ограниченной информацией» (limited information approach), он не делает жёстких предположений ни о распределении данных в генеральной совокупности, ни о шкалах измерения. Поэтому метод применим к номинальным, порядковым и интервальным данным и не требует нормальности. Имитационные исследования с применением симуляций по методу Монте‑Карло показывают, что PLS достаточно устойчив к умеренным нарушениям.
Можно ориентироваться и на следующие требования:
Эндогенные и экзогенные латентные переменные обычно измеряются многопунктовыми шкалами Лайкерта (как минимум порядка, лучше интервальными по допущению).
Индикаторы должны быть либо все рефлексивными, либо все формативными внутри одного конструкта; для формативных показателей особенно важно теоретическое обоснование и проверка мультиколлинеарности.
PLS-SEM допускает относительно малые выборки, но рекомендуется ориентироваться на правило «10-кратного числа»: размер выборки не меньше 10×максимальное число индикаторов на конструкт.
Для устойчивых оценок и бутстреппинга в прикладных исследованиях социальных наук часто рекомендуют иметь 150–300 наблюдений, если модель не совсем простая.
Распределения и масштаб данных
PLS-SEM не требует многомерной нормальности, поэтому подходит для слабо ненормальных и асимметричных распределений, а также для смешения шкал (например, Лайкерт + метрики).
Тем не менее сильные выбросы и крайне асимметричные распределения могут искажать оценки, поэтому рекомендуется предварительный анализ данных, трансформации или робастные варианты оценки.
Практические рекомендации
Как понять, в каком случае лучше использовать обычную модель SEM, основанную на ковариации, а когда лучше обратиться к методу частичных наименьших квадратов?
Выбор между covariance-based SEM (CB-SEM) и variance-based PLS-SEM определяется тем, может ли ковариационная модель быть реализована с помощью указанного количества индикаторов и параметров.
Критерии выбора
- CB-SEM целесообразен, когда:
- число индикаторов на конструкт умеренное;
- цель — тестирование теории и оценка качества модели (χ², RMSEA и т.п.);
- размер выборки достаточно большой (обычно более 200).
- PLS-SEM предпочтителен, когда:
- индикаторов на конструкт очень много (десятки–сотни);
- модель содержит много латентных переменных и индикаторов;
- интересует прежде всего прогноз и объяснённая дисперсия, а не показатели качества;
- выборка относительно небольшая.
Таким образом, чтобы выбрать, нам нужно определиться, сколько у нас параметров в модели, и хватает ли нам данных (наблюдений), чтобы использовать CB-подход, или нам лучше обратиться к VB-подходу.
Пусть всего (p) наблюдаемых переменных (все индикаторы (x) и (y) вместе). Тогда выборочная матрица ковариаций (\(\mathbf{S}\)) имеет
\[ \frac{p(p+1)}{2} \]
уникальных элементов (дисперсии на диагонали и ковариации выше/ниже диагонали).
Число оцениваемых параметров модели обозначим как (k). В стандартной SEM‑модели оно включает:
- для каждого индикатора:
- факторную нагрузку (\(\lambda\));
- дисперсию ошибки измерения;
- параметры структурной части: пути (\(\gamma\), \(\beta\)), ковариации (\(\phi\)), дисперсии ошибок (\(\psi\)).
Тогда степени свободы модели:
\[ df = \frac{p(p+1)}{2} - k. \]
Пример с большим числом индикаторов
Пусть у нас 5 латентных переменных, у каждой по 200 индикаторов. Тогда:
\[ p = 5 \times 200 = 1000, \]
а число уникальных элементов матрицы ковариаций:
\[ \frac{p(p+1)}{2} = \frac{1000 \cdot 1001}{2} = 500\,500. \]
Минимальное число параметров в части измерения:
\[ k_{\text{meas}} \approx 2 \times 1000 = 2000 \]
(нагрузка + дисперсия ошибки на каждый индикатор) плюс параметры структурной части (пути и ковариации), допустим ещё 10–20. Тогда
\[ df \approx 500\,500 - 2\,020 \approx 498\,480. \]
При таком количестве степеней свободы:
- требуется, чтобы объём выборки удовлетворял (\(N_{\min}\ge p\)), то есть (\(N_{\min} \ge 1000\));
- тесты (χ², RMSEA и др.) становятся сверхчувствительными и отвергают модель из‑за микроскопических отклонений;
- практически любая реалистичная модель будет статистически отвергнута, даже если теоретически она разумна.
Почему в этих условиях имеет смысл применять PLS-SEM?
В PLS-SEM:
- не оценивается полная ковариационная структура \(\Sigma(\theta)\);
- степени свободы в смысле \(\frac{p(p+1)}{2} - k\) не считаются, глобальный χ²‑тест отсутствует;
- параметры структурной части оцениваются как коэффициенты OLS‑регрессий на оценках латентных переменных.
При очень большом числе индикаторов:
- влияние выбора конкретных весов на структурные коэффициенты снижается (эффект «consistency at large» ослабевает);
- PLS‑композиты становятся близки к факторным оценкам;
- модель остаётся вычислимо устойчивой даже при умеренных объёмах выборки.
Практические советы
- Использовать CB-SEM, если:
- модель компактна (3–8 индикаторов на конструкт);
- выборка достаточна;
- важен тест глобального соответствия теории данным и сравнение конкурирующих моделей.
- Использовать PLS-SEM, если:
- очень много индикаторов на конструкт или модель в целом «тяжёлая»;
- выборка ограничена;
- основная цель — объяснённая дисперсия и предсказание, а не строгая подгонка матрицы воспроизведенных ковариаций исходным данным;
- присутствуют формативные конструкты, создающие проблемы идентификации в CB-SEM.
Пример модели в JASP
В качестве примера рассмотрим модель из исследования, посвященного бразильскому футболу, представленную в (Rogers and Barboza 2024) и показывающую, как образ команды, лояльность, приверженность и некоторые другие характеристики команды и фанатского сообщества влияют на потребительское поведение фанатов.
Данные, необходимые для проведения анализа, можно скачать здесь (ссылка). Настоятельно рекомендуем с целью более глубокого понимания темы, познакомиться с полным текстом статьи.
В данном примере PLS-SEM был использован в большей степени для описательных целей, так как авторы хотели максимизировать объясненную дисперсию основной эндогенной переменной (“Fan-consumer”) и величину коэффициентов в структурной модели, их значимость. Кроме того, концептуальная модель опиралась на композитные (формирующие) конструкты и демонстрировала относительно высокую сложность при небольшой выборочной совокупности (n = 269).
Вот как выглядела модель (рис. 3):
Часть наблюдаемых переменных использовались как единичные индикаторы. Это в основном, социально-демографические и экономические показатели:
| Переменная | Английское обозначение | Перевод | values / coding (русский) |
|---|---|---|---|
| GENDER | GENDER / HOMEM | Пол | 1 = Мужчина, 2 = Женщина |
| CASADO | MARITAL_STATUS | Семейное положение | 1 = Женат/замужем (Married) |
| SOLTEIRO | MARITAL_STATUS | Семейное положение | 1 = Холост (Single) |
| IDADE | AGE | Возрастная группа | 1=до 18; 2=19–24; 3=25–30; 4=31–36; 5=37–42; 6=43–48; 7=49–54; 8=55–60; 9=старше 60 |
| MEDIO | EDUCATION | Образование | 1 = Среднее / Незаконченное высшее (High school/Incomplete higher) |
| SUPERIOR | EDUCATION | Образование | 1 = Законченное высшее (Graduate) |
| RENDA | INCOME | Месячный доход | 1=до R$1000; 2=R$1001–2500; 3=R$2501–5000; 4=R$5001–10000; 5=свыше R$10000 (в реалах) |
| PRATICA | PLAYER | Умение играть в футбол |
|
Латентные переменные, рассчитываемые на основе композитных (формирующих) индикаторов:
| var | label_ru | type | values / coding (русский) | construct |
|---|---|---|---|---|
| ST1 | Команда из столицы штата | binary | 0 = команда из глубинки; 1 = команда из столицы штата | Success |
| ST2 | Количество титулов штата за 5 лет | count | неотрицательное целое число | Success |
| ST3 | Топ-4 национальной лиги за 5 лет | binary | 0 = нет; 1 = да | Success |
| ST4 | Значимый титул за 5 лет (нац/континент/мировой) | binary | 0 = нет; 1 = да | Success |
| ST5 | Команда из Юг/Юго-Восток | binary | 0 = другие регионы; 1 = Юг/Юго-Восток | Success |
| ST6 | Играет в Серии A | binary | 0 = нет; 1 = да | Success |
| ST7 | Количество значимых титулов за 5 лет | count | неотрицательное целое число | Success |
| TC1 | Частота покупок продукции клуба | ordinal | 1=Никогда; 2=Редко; 3=Иногда; 4=Часто; 5=Очень часто | Consumer Fan |
| TC2 | Годовые траты на клуб | ordinal | 0=Не трачу; 1=до R$50; 2=до R$100; 3=до R$500; 4=до R$1000; 6=более R$1000 | Consumer Fan |
| TC3 | Подписка на платный футбол | binary | 0=Нет; 1=Да | Consumer Fan |
| TC4 | Член фан-клуба | binary | 0=Нет; 1=Да (исключён из финальной модели) | Consumer Fan |
| TC5 | Потенциал дохода по каналу покупки | composite | сумма баллов: 0=нет/улица; 1=интернет/спортмагазины; 2=клубный/официальный магазин | Consumer Fan |
| TC6 | Потенциал дохода по типу продукта | composite | сумма баллов: 0=нет; 1=низкая стоимость; 2=форма/одежда | Consumer Fan |
| OR1 | Команда из провинции проживания | binary | 0=Нет; 1=Да | Origins |
| OR2 | Команда из провинции рождения | binary | 0=Нет; 1=Да | Origins |
Латентные переменные, представленные в классическом виде (как рефлективные):
| var | label_ru | type | values / coding (русский) | construct |
|---|---|---|---|---|
| CP1 | «Я настоящий фанат своего клуба» | Likert 1–7 | 1=Полностью не согласен … 7=Полностью согласен | Psych. Commitment |
| CP2 | «Я очень предан своему клубу» | Likert 1–7 | 1–7 | Psych. Commitment |
| CP3 | «Ничто не изменит мою преданность клубу» | Likert 1–7 | 1–7 | Psych. Commitment |
| CP4 | «Не сменю клуб даже при неудачах» | Likert 1–7 | 1–7 | Psych. Commitment |
| CP5 | «Защищу клуб публично, даже если будут проблемы» | Likert 1–7 | 1–7 | Psych. Commitment |
| CP6 | «Не сменю клуб из-за друзей» | Likert 1–7 | 1–7 | Psych. Commitment |
| CP7 | «Важно, чтобы клуб играл в главных чемпионатах» | Likert 1–7 | 1–7 | Psych. Commitment |
| CP8 | «Долгосрочный успех клуба важен для меня» | Likert 1–7 | 1–7 | Psych. Commitment |
| LC1 | «Часто смотрел матчи на стадионе» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC2 | «Буду часто смотреть на стадионе» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC3 | «Смотрел матчи клуба по ТВ» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC4 | «Буду смотреть матчи по ТВ» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC5 | «Следил за новостями о клубе» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC6 | «Буду следить за новостями» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC7 | «Купил несколько продуктов клуба» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC8 | «Куплю несколько продуктов клуба» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC9 | «Часто ношу цвета/эмблему клуба» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC10 | «Буду часто носить цвета/эмблему» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC11 | «Часто участвовал в обсуждениях команды» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| LC12 | «Буду участвовать в обсуждениях» | Likert 1–7 | 1–7 | Behavioral Loyalty |
| IMG1 | «Мой клуб — большой клуб» | Likert 1–7 | 1–7 | Team Image |
| IMG2 | «У клуба хорошая команда» | Likert 1–7 | 1–7 | Team Image |
| IMG3 | «Клуб выглядит амбициозным» | Likert 1–7 | 1–7 | Team Image |
| IMG4 | «Клуб выглядит смелым» | Likert 1–7 | 1–7 | Team Image |
| IMG5 | «Клуб хорошо управляется» | Likert 1–7 | 1–7 | Team Image |
| IMG6 | «Клуб не затронут скандалами» | Likert 1–7 | 1–7 | Team Image |
| IMG7 | «У клуба хороший стадион/центр подготовки» | Likert 1–7 | 1–7 | Team Image |
| IMG8 | «Игроки клуба решительны» | Likert 1–7 | 1–7 | Team Image |
| IMG9 | «Администрация клуба компетентна» | Likert 1–7 | 1–7 | Team Image |
| IMG10 | «Результаты клуба очень хороши» | Likert 1–7 | 1–7 | Team Image |
Гипотезы модели, тестируемые в структурной части:
Практика игры в футбол (PLAYER) зависит от пола (GENDER)
Возраст (AGE) определяет доходы (INCOME), семейное положение (MARITAL STATUS) и уровень образования (EDUCATION)
Потребительское поведение (COMSUMER FAN) (траты на всякие фанатские штуки) зависят от доходов, возраста (INCOME) и приверженности к команде (COMMITMENT)
Сама приверженность (COMMITMENT) зависит от лояльности (LOYALTY) к команде, имиджа команды (TEAM IMAGE), наличия личного опыта игры в футбол (PLAYER) и происхождения команды (ORIGINS), за которую болеет респондент (команда из родного города или из того, где он сейчас находится)
Лояльность (LOYALTY) также зависит от происхождения команды (ORIGINS), опыта игры (PLAYER) и имиджа (TEAM IMAGE)
На оценку имиджа команды (TEAM IMAGE) влияет успех команды (TEAM SUCCESS) и личный опыт игры в футбол (PLAYER)
Для того, чтобы провести анализ в JASP, необходимо выполнить следующие шаги:
Загрузить данные в формате .csv
Перевести все переменные в формат Scale (у каждого столбика нажать на иконку и выбрать “линеечку”).
Рис. 4. Перевод переменных в формат scale. Выбрать в меню SEM, затем Partial Least Squares SEM:
В окно модели внести следующий синтаксис для базовой модели:
# Внешний контур: рефлективные латентные переменные
Image =~ IMG1 + IMG2 + IMG3 + IMG4 + IMG5 + IMG6 + IMG7 + IMG8 + IMG9 + IMG10
Loyalty =~ LC1 + LC2 + LC3 + LC4 + LC5 + LC6 + LC7 + LC8 + LC9 + LC10 + LC11 + LC12
Commitment =~ CP1 + CP2 + CP3 + CP4 + CP5 + CP6 + CP7 + CP8
# Внешний контур: композитные латентные переменные
Success <~ ST1 + ST2 + ST3 + ST4 + ST5 + ST6 + ST7
ConsumerFan <~ TC1 + TC2 + TC3 + TC4 + TC5 + TC6
Origins <~ OR1 + OR2
# Внешний контур: наблюдаемые переменные и уникальные индикаторы
Age <~ IDADE
Education <~ MEDIO + SUPERIOR
Gender <~ GENDER
Player <~ PRATICA
Income <~ RENDA
MaritalStatus <~ CASADO + SOLTEIRO
# Внутренний контур: структурная модель
Education ~ Age
MaritalStatus ~ Age
Player ~ Age + Gender
Income ~ Education + Age + MaritalStatus
Image ~ Player + Success
Loyalty ~ Player + Image + Origins
Commitment ~ Player + Image + Loyalty + Origins
ConsumerFan ~ Income + Age + Commitment
Установить следуюшие настройки: в блоке вычисления ошибок выбрать метод Robust - Bootstrap (бутстрэп - это непараметрический статистический метод ресэмплинга, то есть многогратного извлечения выборок меньшего объема из исходных данных, который оценивает распределение статистики и её точность без предположений о форме распределения данных). Количество выборок - 5000 (в оригинальной статье 10000, но это потребует дополнительного времени и оперативной памяти:
Дополнительно, в блоке вывода, попросим следующие статистики:
Запустить модель (нажать на Ctrl + Enter).
Рассмотрим основные результаты. Первая таблица в выводе – это, как всегда, общие показатели модели. Видим, что у нас очень большой хи-квадрат, но поскольку это только предварительный анализ, для нас это не главное, так же как и индексы, которые показывают не очень хорошие результаты (CFI = 0,72, RMSEA = 0,08).
Adjusted R-квадрат - высок только у латентной переменной Commitment, у остальных переменных не превышает 0,6.
Следом идет таблица с результатом теста Мардиа, проверяющим многомерную нормальность данных. Нулевая гипотеза этого теста заключается в том, что многомерный эксцесс и многомерная асимметрия не отличаются от нормальных, а наши p-значения указывают на существенные отклонения. Однако, повторимся, что PLS-подход ориентируется на другие маркеры качества.
В оригинальной статье авторы предлагают следующие критерии для оценки базовой PLS-модели.
Во-первых, такая модель должна включать по меньшей мере одну формативную и/или рефлективную модель. Структурные связи могут включать эффекты модерации и медиации.
В случае, если модель PLS-SEM не включает модель измерения (латентные переменные), она рассматривается в качестве путевой модели, соответственно, в ней оценивается только структурная модель.
Если в модели измерения есть рефлективные индикаторы, используется алгоритм PLSc (Consistent PLS). Почти во всех программах настройки по умолчанию влючают весовые коэффициенты - модель A (корреляционные веса) для рефлективных моделей и модель B (регрессионные веса) для формативной модели. Для оценки параметров рекомендуется использовать бутсрэп с 10000 выборок.
В соответствии с такой структурой, оценку можно разделить на два этапа:
Оценка измерительных модели (outer models) — Stage 1.
Оценка структурной модели (inner model) — Stage 2.
Этап 1. Оценка модели измерения - Measurement Model Evaluation (outer models)
Этап1.1. Reflective (рефлексивные конструкты)
Проверка на внутреннюю согласованность - Internal Consistency Reliability
Показатели: Cronbach’s alpha, composite reliability \(\rho\)_C, \(\rho\)_A.
Требования:
0.70–0.95 — хорошая надежность.
0.60–0.70 — допустимо для исследовательских работ.
0.95 — подозрение на избыточные, дублирующие индикаторы.
Конвергентная валидность - Convergent Validity
Показатели: факторные нагрузки, AVE (Average options variance extracted - средняя оцененная дисперсия).
Требования:
Нагрузки > 0.70; диапазон 0.60–0.70 допустим при эксплораторном подходе.
AVE > 0.50.
Дискриминантная валидность - Discriminant Validity (HTMT)
Дискриминантная валидность показывает, что конструкт эмпирически отличим от других конструктов, то есть индикаторы не «мешают» измерять соседние латентные переменные.
Показатель: HTMT (heterotrait–monotrait ratio).
Требования:
HTMT < 0.90, если конструкты концептуально похожи.
HTMT < 0.85, если конструкты концептуально различны.
Доверительный интервал 95% (по бутстрэпу) не должен включать 1.0.
Stage 1.2. Composite (формативные / композитные конструкты)
Конвергентная валидность - Convergent Validity (Redundancy analysis)
Метод: регрессия формативно измеряемого латентного переменного (LV) на рефлексивно измеряемую LV.
Требование: коэффициент пути формативный → рефлексивный > 0.70.
Коллинеарность - Collinearity
Показатель: VIF между формативными индикаторами.
Требования:
VIF < 5.0 — мягкий порог.
VIF < 3.0 — строгий порог.
Значимые веса и нагрузки
Показатели: внешние веса (outer weights), внешние нагрузки (outer loadings), p‑values.
Требования:
Сохранять индикаторы с значимыми весами (p < 0.05).
Если вес незначим, но loading > 0.50, индикатор можно оставить.
Если вес незначим и loading < 0.50, индикатор обычно удаляют.
Stage 2. Оценка структурной модели - Structural Model Evaluation (inner model)
Коллинеарность - Collinearity
Коллинеарность - это высокая корреляция между индикаторами формативных конструктов или предикторами в структурной модели, которая может искажать оценки весов и регрессионных коэффициентов в структурной модели.
Показатель: VIF для предикторов каждого эндогенного конструкта.
Требование: VIF < 5.0 (желательно < 3.0) — отсутствие проблемной мультиколлинеарности.
Значимость коэффициентов
Показатели: p‑values путей, эффект‑size f².
Интерпретация f² (Cohen):
0.02 — малый эффект.
0.15 — средний эффект.
0.35 — крупный эффект.
Предсказательная способность модели (внутренняя)
Показатель: R² эндогенных переменных.
Типичные ориентиры:
R² ≈ 0.75 — высокая объясненная дисперсия.
R² ≈ 0.50 — средняя.
R² ≈ 0.25 — низкая, но всё ещё осмысленная в социальных науках.
Сравнение моделей - Model Comparisons
Критерии: BIC или GM (geometric mean).
Требование: выбирается модель с минимальным BIC или GM по сравнению с альтернативными спецификациями.
Все основные этапы и показатели представлены на схеме ниже. Ниже рассматриваются все вопросы, кроме использования подхода для предсказания новых значений и сравнения моделей (крайний правый столбец).
Итак, попробуем отследить эти этапы на наших данных.
За таблицей с тестом на нормальность можно найти таблицу с коэффициентами согласованности для рефлексивных переменных (Reliability). Порог: >0.7 приемлемо, >0.8 хорошо, >0.9 отлично. У нас все показатели в норме.
Далее посмотрим показатели весов и нагрузок.
У индикаторов ST1, ST4 и ST7 незначимые веса.
У рефлективных индикаторов проблемы у IMG1, IMG6, IMG7, IMG9, LC1, LC2, CP4, CP6, TC3, TC4.
И, наконец, последняя таблица показывает корреляцию между конструктами. Нас должна насторожить корреляция \(\rho\)= 0.954 между переменными лояльности и приверженности (Commitment - Loyalty), указывающая на нехватку дискриминантной валидности (оба конструкта, по сути, означают одно и то же).
- Чтобы выполнить требования, указанные в пп. 1.1. и 1.2 на цветной схеме, нам нужно сделать еще некоторые манипуляции.
Для проверки коллинеарности у композитных индикаторов необходимо провести дополнительно регрессионный анализ: в качестве зависимой переменной указывается любая переменная, а в качестве независимых - все индикаторы латентных переменных - как рефлективных, так и формирующих.
Проверка на коллинеарность проводится с помощью критерия Variance inflation factor (VIF), который в строгом варианте должен быть менее 3, в более мягком - менее 5. В нашем случае VIF > 4.9 у пунктов LC3, LC4, LC5, LC6 и LC12.
Для того, чтобы оценить конвергентную и дискриминантную валидность у рефлексивных индикаторов, нам нужно сделать конфирматорный факторный анализ, в настройках которого нужно выбрать критерии AVE и HTMT.