Практическое занятие 3. Простые структурные модели
На предыдущих занятиях мы рассмотрели возможности конфирматорного анализа и попробовали воспроизвести результаты классического исследования про промышленное производство и демократию, в том числе даже попытались разобраться с тем, что такое эффект медиации.
Возможно для кого-то такой пример показался сложным, поэтому на сегодняшнем занятии мы будем двигаться от очень простых моделей и будем постепенно их усложнять, чтобы у нас не осталось невыясненных моментов по поводу формул, синтаксиса или интерпретации результатов.
Для выполнения практических заданий нам понадобятся вот эти данные ( файл worland5).
Пример исследования: предположим, что вы изучаете, какое влияние оказывают социальные и психологические факторы на результаты обучения. В наборе данных содержится информация о 500 студентах, каждый из которых выполнил 9 тестов: Motivation, Harmony, Stability, Negative Parental Psychology, SES, Verbal IQ, Reading, Arithmetic and Spelling. Предполагается, что эти тесты образуют три латентных конструкта: Adjustment (адаптация), Risk (риск), Achievement (достижения), которые измеряются следующим образом:
Adjustment (Адаптация)
motiv
Motivation - мотивацияharm
Harmony - гармоничное развитиеstabi
Stability - стабильность
Risk (Риск)
ppsych
(Negative) Parental Psychology - отрицательное влияние родительского контроляses
SES - социально-экономический статусverbal
Verbal IQ - вербальный интеллект (развитие речи)
Achievement (Достижения)
read
Reading - Чтениеarith
Arithmetic - Арифметикаspell
Spelling - Произношение
Простая регрессия (Model 1)
Модели простой регрессии представляют взаимосвязь между одной наблюдаемой экзогенной переменной и одной наблюдаемой эндогенной переменной. Модель простой линейной регрессии обычно определяется как:
\[ y_1=b_0+b_1x_1+\epsilon \]
где \(b_0\) это интерцепт, \(b_1\) это коэффициент, \(x_1\) – это наблюдаемый предиктор, а \(\epsilon\) остаток (ошибка). Karl Joreskög, основатель LISREL (linear structural relations), разработал специальную нотацию такой же модели для одного наблюдения:
\[y_1 = \alpha_1 + \gamma x_1 + \zeta_1\]
Обозначения
\(x_1\) экзогенная переменная
\(y_1\) эндогенная переменная
\(b_0, \alpha_1\) интерцепт для \(y_1\) , “альфа”
\(b_1, \gamma_1\) регрессионный коэффициент, “гамма”
\(\epsilon_1, \zeta_1\) остаток \(y_1\) “эспилон” и “дзета”
\(\phi\) дисперсия или ковариация экзогенной переменной, “фи”
\(\psi\) остаточная дисперсия или ковариация эндогенной переменной , “пси”
Визуально матрица взаимосвязей может быть представлена в виде путевой диаграммы:
Тестируем модель на данных
Предположим, мы хотим протестировать подобную модель на нашем наборе данных. Допустим, в качестве зависимой переменной \(y_1\) будет выступать чтение (read
), а в качестве независимой - мотивация (motiv
).
Откройте программу JASP, загрузите данные (Open-Computer- Browse - выберите скачанный файл.
В модуле SEM выберите метод Structural Equation Modeling:
В текстовом поле для модели введите синтаксис:
В параметрах вывода необходимо указать: вывод стандартизированных коэффициентов (Standardized estimates), дополнительных мер оценки (Additional fit measures), коэффициента детерминации (R-squared), модифицирующих индексов (Modification Indices).
Дополнительно, чтобы посмотреть интерцепты (средние) нужно нажать галочку в Include mean structure:
Код для JASP:
# регрессия read ~ 1 + motiv # дисперсия (не обязательный параметр) motiv ~~ motiv
Запустите модель (нажав на сочетание клавиш Ctrl+Enter) и проанализируйте результаты.
Вопросы:
- Чему равняется число степеней свободы и каковы показатели качества модели (Относительные и абсолютные индексы)?
- Каковы коэффициенты регрессии? Как можно их проинтерпретировать?
Ответы:
- Посмотрим на то, что выводит программа в самом начале. Во первых, мы видим, что у нас достаточно большое количество опрошенных (n = 500), и что количество степеней свободы равно 0, значит наша модель точно определена. Почему 0? Вспоминаем, как расчитывается количество степеней свободы: мы должны посчитать количество известных параметров - неизбыточных элементов матрицы ковараций (у нас их три - две дисперсии и одна ковариация) и вычесть из него количество неизвестных параметров модели (у нас это один коэффициент – \(\gamma\), коэффициент интерцепта \(\alpha_1\) и остаточная дисперсия для \(y_1\) - \(\psi_{11}\), значит \(3-3=0\). Интерцепт (\(\alpha_1\)) в модель включен, потому что мы поставили в формуле синаксиса единицу (r
ead ~ 1 + motiv
), но его значение равно нулю, так как все данные центрированы.
Раз модель точно определена мы не можем вычислить индексы оценки, и они равны тоже 1, поскольку все взаимосвязи в модели точно воспроизводятся.
- Где мы посмотрим коэффициенты регрессии? В таблице Parameters estimates:
Видим, что p < 0.001, и это значит, что существует статистически достоверная связь между мотивацией и чтением, и что (смотрим на стандартизированный показатель в конце таблицы - 0,53) - увеличение мотивации приводит к увеличению качества чтения (изменение на 1 балл одного приводит к увеличениею на 0,53 балла другого).
Несмотря на то, что вы выявили статистически достоверную связь, наша модель не очень информативна: она позволяет объснить только 28% дисперсии нашей целевой переменной - чтения, в чем можно убедиться, посмотрев в таблицу R-squared.
Если мы попытаемся соотнести получившиеся коэффициенты с нашим рисунком выше, то получится, что: \(y\)=read
, \(x\)=motiv
, \(y_1=0.53\), α=0, \(\psi_{11}=71.766\).
Откуда взялось число 71,766?
Из таблицы Residual variances (Остаточные дисперсии):
Множественная регрессия (Модель 2)
Простая регрессия ограничена одной экзогенной переменной. На практике, исследователя могут интересовать несколько переменных в качестве предикторов целевой переменной. Предположим мы имеем одну зависимую (эндогенную) и две независимых переменных;теперь это уже множественная регрессия. Уравнение для всех переменных можно представить в матричной форме:
\[ y_1 = \alpha_1 + \mathbf{x \gamma} + \zeta_1 \]
Обозначения
\(y_1\) эндогенная переменная
\(\alpha_1\) интерцепт для \(y_1\)
\(x\) вектор (1×\(q\)) экзогенных (независимых переменных)
\(\gamma\) векторr (\(q\)×1) регрессионных коэффициентов, где \(q\) общее количество экзогенных переменных.
\(\zeta_1\) остаток для \(y_1\)
\(\phi\) дисперсия или ковариация экзогенной переменной
\(\psi\) остаточная дисперсия или ковариация для эндогенной переменной
Допущения
\(E(\zeta)=0\) среднее значение всех остатков равно нулю
\(\zeta\) не коррелирует с \(x\)
Предположим, у нас есть две экзогенных переменных \(x_1, x_2\), предсказывающих эндогенную переменную \(y_1\). Путевая диаграмма для такой модели будет следующей:
Тестируем модель на данных
Добавим в нашу исходную модель новую переменную - влияние родителей (ppsych).
Добавтье новую вкладку для модели и введите следующий синтаксис:
Код для JASP:
# Регрессии read ~ 1 + ppsych + motiv # Ковариация ppsych ~~ motiv
Проанализируйте полученные результаты.
Изменилось ли количество степеней свободы? Почему?
Как изменился показатель информативности модели (R-squared)? Он увеличился или уменьшился? О чем это говорит?
По таблице коэффициентов регрессии посмотрите, является ли значимым предиктор ppsych? (смотрим, как всегда, на значение p). Если знак отрицательный, значит данный фактор негативно воздействует на нашу зависимую переменную.
Задание
Перезапустите анализ без строчки ppsych ~~ motiv
. Как изменится число степеней свободы? Поменяются ли коэффициенты? Что это означает?
Многомерная регрессия (Модель 3)
Простая и множественная регрессия имеют одновременно только одну независимую переменную \((y)\). В многомерной или одновременной регрессии участвуют сразу несколько зависимых переменных \(y_1, y_2, …, y_p\) a \(p\) - их количество. Обобщенная многомерная линейная модель определяется как:
\[ \mathbf{y} = \mathbf{\alpha} + \mathbf{\Gamma} \mathbf{x} + \mathbf{\zeta} \]
В матричной форме (для двух эндогенных и двух экзогенных переменных это будет выглядеть вот так:
\[ \begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix} = \begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} + \begin{pmatrix} \gamma_{11} & \gamma_{12}\\ 0 & \gamma_{22} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} + \begin{pmatrix} \zeta_{1}\\ \zeta_{2} \end{pmatrix} \]
\(\Gamma\) является структурным параметром и определяет взаимоотношения между экзогенными и эндогенными переменными.
Обозначения
y= \((y_1, … y_p)'\) вектор \(p\) эндогенных переменных
x= \((x_1, … x_p)'\) вектор \(q\) экзогенных переменных
\(\alpha\) вектор \(p\) интерцептов
\(\Gamma\) матрица регрессионных коэффициентов (\(p \times q\)), связывающих эндогенные переменные с экзогенными переменными, где \(i\) -я строка обозначает эндогенную переменную, а \(j\) - я колонка экзогенную переменную.
\(\zeta= (\zeta_1, … \zeta_p)'\) вектор \(p\) остатков (по количеству эндогенных переменных)
Тестируем модель на данных
Добавим в модель еще одну зависимую переменную - по арифметическим вычислениям (arith).
Код JASP:
# regressions read ~ 1 + ppsych + motiv arith ~ 1 + motiv
Если у Вас возникнет красное окно с ошибкой - выключите параметр Additional fit measures.
В таблице параметров видим, что все наши уравнения имеют значение: чрезмерная родительская опека негативно сказывается на успехах в чтении (\(\gamma_{11}=-0.216)\), а мотивация положительно влияет на успехи как в чтении (\(\gamma_{12}=0.476)\), так и в арифметике (\(\gamma_{22}=0.600)\), но на последнюю - больше.
Путевой анализ (Модель 4)
Многомерная регрессия является специальным случаем путевого анализа, где только экзогенные переменные предсказывают эндогенные переменные.
Путевой анализ является более обобщенной моделью, где все переменные являются наблюдаемыми (манифестными), но эндогенные переменные могут объяснять другие эндогенные переменные. Так как \(\Gamma\) определяет взаимоотношения между эндогенной \((y)\) и экзогенной \((x)\) переменной, нам нужно создать новую матрицу \(B\), в которой будут отражены взаимосвязи между эндогенными переменными.
Такая модель может быть определена так:
\[ \mathbf{y = \alpha + \Gamma x + By + \zeta} \]
Матрица \(B\) это \(p \times p\) матрица, которая не обязательно должна быть симметричной. Строки этой матрицы определяют, какая \(y\) переменная предсказывается (объясняется), а колонки - какие переменные \(y\) выступают в качестве предсказывающих. Например, \(\beta_{21}\) находится во второй строке, что означает, что \(y_2\) целевая переменная, а первый столбец означает, что \(y_1\) является предиктором.
В матричной форме это можно представить вот так: \[ \begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix} = \begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} + \begin{pmatrix} \gamma_{11} & \gamma_{12}\\ 0 & \gamma_{22} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} + \begin{pmatrix} 0 & 0\\ \beta_{21} & 0 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} + \begin{pmatrix} \zeta_{1}\\ \zeta_{2} \end{pmatrix} \]
Обозначения
y= \((y_1, … y_p)'\) вектор \(p\) эндогенных переменных
x= \((x_1, … x_p)'\) вектор \(q\) экзогенных переменных
\(\alpha\) вектор \(p\) интерцептов
\(\Gamma\) матрица регрессионных коэффициентов (\(p \times q\)) связывающих эндогенные переменные с экзогенными переменными, где \(i\) -я строка обозначает эндогенную переменную, а \(j\) - я колонка экзогенную переменную
\(B\) матрица регрессионных коэффициентов (\(p \times p\)) для эндогенных переменных, в которой \(i\) -я строка обозначает предикторную переменную, а \(j\) - я колонка целевую переменную
\(\zeta= (\zeta_1, … \zeta_p)'\) вектор \(p\) остатков (по количеству эндогенных переменных)
Допущения
\(E(\zeta)=0\) среднее значение всех остатков равно нулю
\(\zeta\) не коррелирует с \(x\)
Тестируем модель на данных
К предыдущей модели добавим дополнительное уравнение, проверяющее гипотезу о том, что на математические достижения (arith) оказывает эффект чтение (read), которое в свою очередь зависит от мотивации (motiv) и родительского контроля (ppsych).
Код для JASP:
read ~ 1 + ppsych + motiv arith ~ 1 + motiv + read
Как изменились результаты? Как мы их проинтерпретируем?
Во-первых, значительно изменилась информативность модели, она стала объяснять 35,2% дисперсии переменной чтения и почти 60% - успехи в арифметике:
Из новых результатов - дополнительное уравнение о связи математики и чтения, - мы видим, что эта связь также значима - чем лучше дети читают, тем лучше у них и успехи в выполнении математических заданий (что в целом, логично).
Самостоятельное задание: соотнесите полученные цифры в Jasp с коэффициентами в модели (греческие буквы можно писать по-русски)