Лекция 5. Простые структурные модели

Для выполнения практических заданий нам понадобятся вот эти данные.

Пример исследования: предположим, что вы изучаете, какое влияние оказывают социальные и психологические факторы на результаты обучения. В наборе данных содержится информация о 500 студентах, каждый из которых выполнил 9 тестов: Motivation, Harmony, Stability, Negative Parental Psychology, SES, Verbal IQ, Reading, Arithmetic and Spelling. Предполагается, что эти тесты образуют три латентных конструкта (про которые мы сегодня говорить не будем): Adjustment (адаптация), Risk (риск), Achievement (достижения), которые измеряются следующим образом:

Adjustment (Адаптация)

Risk (Риск)

Achievement (Достижения)

Простая регрессия (Model 1)

Модели простой регресси представляют взаимосвязь между одной наблюдаемой экзогенной переменной и одной наблюдаемой эндогенной переменной. Модель простой линейной регрессии обычно определяется как:

\[ y_1=b_0+b_1x_1+\epsilon \]

где \(b_0\) это интерцепт, \(b_1\) это коэффициент, \(x_1\) – это наблюдаемый предиктор, а \(\epsilon\) остаток (ошибка). Karl Joreskög, основатель LISREL (linear structural relations), разработал специальную нотацию такой же модели для одного наблюдения:

\[y_1 = \alpha_1 + \gamma x_1 + \zeta_1\]

Обозначения

  • \(x_1\) экзогенная переменная

  • \(y_1\) эндогенная переменная

  • \(b_0, \alpha_1\) интерцепт для \(y_1\) , “альфа”

  • \(b_1, \gamma_1\) регрессионный коэффициент, “гамма”

  • \(\epsilon_1, \zeta_1\) остаток \(y_1\) “эспилон” и “дзета”

  • \(\phi\) дисперсия или ковариация экзогенной переменной, “фи”

  • \(\psi\) остаточная дисперсия или ковариация эндогенной переменной , “пси”

Визуально матрица взаимосвязей может быть представлена в виде путевой диаграммы:

Тестируем модель на данных

Предположим, мы хотим протестировать подобну модель на нашем наборе данных. Допустим, в качестве зависимой переменной \(y_1\) будет выступать чтение (read), а в качестве независимой - мотивация (motiv).

Откройте программу JASP, загрузите данные (Open-Computer- Browse - выберите скачанный файл.

В модуле SEM выберите метод Structural Equation Modeling:

В текстовом поле для модели введите синтаксис:

В параметрах вывода необходимо указать: вывод стандартизированных коэффициентов (Standardized estimates), дополнительных мер оценки (Additional fit measures), коэффициента детерминации (R-squared), модифицирующих индексов (Modification Indices).

Код для JASP:

# регрессия     
read ~ 1 + motiv   
# дисперсия (не обязательный параметр)
motiv ~~ motiv

Запустите модель (нажав на сочетание клавиш Ctrl+Enter) и проанализируйте результаты.

Вопросы:

Чему равняется число степеней свободы и каковы показатели качества модели? (Относительные и абсолютные индексы)? Каковы коэффициенты регрессии? Как можно их проинтерпретировать?

Задание

Перезапустите код без 1+. Как поменяется количество оцениваемых параметров и количество степеней свободы?

Множественная регрессия (Модель 2)

Простая регрессия ограничена одной экзогенной переменной. На практике, исследователя могут интересовать несколько переменных в качестве предикторов целевой переменной. Предположим мы имеем одну зависимую (эндогенную) и две независимых переменных;теперь это уже множественная регрессия. Уравнение для всех переменных можно представить в матричной форме:

\[ y_1 = \alpha_1 + \mathbf{x \gamma} + \zeta_1 \]

Обозначения

  • \(y_1\) эндогенная переменная

  • \(\alpha_1\) интерцепт для \(y_1\)

  • \(x\) вектор (1×\(q\)) экзогенных (независимых переменных)

  • \(\gamma\) векторr (\(q\)×1) регрессионных коэффициентов, где \(q\) общее количество экзогенных переменных.

  • \(\zeta_1\) остаток для \(y_1\)

  • \(\phi\) дисперсия или ковариация экзогенной переменной

  • \(\psi\) остаточная дисперсия или ковариация для эндогенной переменной

Допущения

  • \(E(\zeta)=0\) среднее значение всех остатков равно нулю

  • \(\zeta\) не коррелирует с \(x\)

Предположим, у нас есть две экзогенных переменных \(x_1, x_2\), предсказывающих эндогенную переменную \(y_1\). Путевая диаграмма для такой модели будет следующей:

Тестируем модель на данных

Добавим в нашу исходную модель новую переменную - влияние родителей (ppsych).

Добавтье новую вкладку для модели и введите следующий синтаксис:

Код для JASP:

# Регрессии     
read ~ 1 + ppsych + motiv  
# Ковариация     
ppsych ~~ motiv

Проанализируйте полученные результаты.

Задание

Перезапустите анализ без строчки ppsych ~~ motiv. Как изменится число степеней свободы? Поменяются ли коэффициенты? Что это означает?

Многомерная регрессия (Модель 3)

Простая и множественная регрессия имеют одновременно только одну независимую переменную \((y)\). В многомерной или одновременной регрессии участвуют сразу несколько зависимых переменных \(y_1, y_2, …, y_p\) a \(p\) - их количество. Обобщенная многомерная линейная модель определяется как:

\[ \mathbf{y} = \mathbf{\alpha} + \mathbf{\Gamma} \mathbf{x} + \mathbf{\zeta} \]

В матричной форме (для двух эндогенных и двух экзогенных переменных это будет выглядеть вот так:

\[ \begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix} = \begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} + \begin{pmatrix} \gamma_{11} & \gamma_{12}\\ 0 & \gamma_{22} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} + \begin{pmatrix} \zeta_{1}\\ \zeta_{2} \end{pmatrix} \]

\(\Gamma\) является структурным параметром и определяет взаимоотношения между экзогенными и эндогенными переменными.

Обозначения

  • y= \((y_1, … y_p)'\) вектор \(p\) эндогенных переменных

  • x= \((x_1, … x_p)'\) вектор \(q\) экзогенных переменных

  • \(\alpha\) вектор \(p\) интерцептов

  • \(\Gamma\) матрица регрессионных коэффициентов (\(p \times q\)), связывающих эндогенные переменные с экзогенными переменными, где \(i\) -я строка обозначает эндогенную переменную, а \(j\) - я колонка экзогенную переменную.

  • \(\zeta= (\zeta_1, … \zeta_p)'\) вектор \(p\) остатков (по количеству эндогенных переменных)

Тестируем модель на данных

Добавим в модель еще одну зависимую переменную - по арифметическим вычислениям (arith).

Код JASP:

# regressions
read ~ 1 + ppsych + motiv 
arith ~ 1 + motiv

Путевой анализ (Модель 4)

Многомерная регрессия является специальным случаем путевого анализа, где только экзогенные переменные предсказывают эндогенные переменные.

Путевой анализ является более обобщенной моделью, где все переменные являются наблюдаемыми (манифестными), но эндогенные переменные могут объяснять другие эндогенные переменные. Так как \(\Gamma\) определяет взаимоотношения между эндогенной \((y)\) и экзогенной \((x)\) переменной, нам нужно создать новую матрицу \(B\), в которой будут отражены взаимосвязи между эндогенными переменными.

Такая модель может быть определена так:

\[ \mathbf{y = \alpha + \Gamma x + By + \zeta} \]

Матрица \(B\) это  \(p \times p\) матрица, которая не обязательно должна быть симметричной. Строки этой матрицы определяют, какая \(y\) переменная предсказывается (объясняется), а колонки - какие переменные \(y\) выступают в качестве предсказывающих. Например, \(\beta_{21}\) находится во второй строке, что означает, что \(y_2\) целевая переменная, а первый столбец означает, что \(y_1\) является предиктором.

В матричной форме это можно представить вот так: \[ \begin{pmatrix} y_{1} \\ y_{2} \end{pmatrix} = \begin{pmatrix} \alpha_1 \\ \alpha_2 \end{pmatrix} + \begin{pmatrix} \gamma_{11} & \gamma_{12}\\ 0 & \gamma_{22} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} + \begin{pmatrix} 0 & 0\\ \beta_{21} & 0 \end{pmatrix} \begin{pmatrix} y_1 \\ y_2 \end{pmatrix} + \begin{pmatrix} \zeta_{1}\\ \zeta_{2} \end{pmatrix} \]

Обозначения

  • y= \((y_1, … y_p)'\) вектор \(p\) эндогенных переменных

  • x= \((x_1, … x_p)'\) вектор \(q\) экзогенных переменных

  • \(\alpha\) вектор \(p\) интерцептов

  • \(\Gamma\) матрица регрессионных коэффициентов (\(p \times q\)) связывающих эндогенные переменные с экзогенными переменными, где \(i\) -я строка обозначает эндогенную переменную, а \(j\) - я колонка экзогенную переменную

  • \(B\) матрица регрессионных коэффициентов (\(p \times p\)) для эндогенных переменных, в которой \(i\) -я строка обозначает предикторную переменную, а \(j\) - я колонка целевую переменную

  • \(\zeta= (\zeta_1, … \zeta_p)'\) вектор \(p\) остатков (по количеству эндогенных переменных)

Допущения

  • \(E(\zeta)=0\) среднее значение всех остатков равно нулю

  • \(\zeta\) не коррелирует с \(x\)

Тестируем модель на данных

К предыдущей модели добавим дополнительное уравнение, проверяющее гипотезу о том, что на математические достижения (arith) оказывает эффект чтение (read), которое в свою очередь зависит от мотивации (motiv) и родительского контроля (ppsych).

Код для JASP:

read ~ 1 + ppsych + motiv
arith ~ 1 + motiv + read

Как изменились результаты? Как мы их проинтерпретируем?