class: center, middle, inverse, title-slide # Введение в структурное моделирование ## Лекция 3. Конфирматорный факторный анализ ### Д.А. Омельченко --- ## План - Особенности измерения латентных переменных - Эксплораторный факторный анализ (EFA) - Конфирматорный факторный анализ (CFA) - Определение шкалы латентной переменной - Формализация и оценка качества модели CFA - Сравнение средних значений - Образующие индикаторы (Formative Indicators) - Агрегирование индикаторов (parcelling) - Факторы второго порядка --- ## Конфирматорный факторный анализ (CFA) – основа модели измерения -- >- В любых измерениях есть ошибки (систематические или случайные) -- >- Цель – отделить ошибку от истинного значения: -- >- X = t + e -- >- Как это сделать? -- >- Суммировать результаты, полученные по разным шкалам/вопросам (случайные ошибки нивелируются) -- >- Попытаться оценить выраженность латентной переменной --- ## Эксплораторный факторный анализ - exploratory factor analysis (EFA) -- > - Является факторным анализом «без ограничений» (unrestricted) -- > - Цель – найти факторные нагрузки, которые наилучшим образом воспроизводили бы корреляции между переменными -- > - n факторов = n переменных -- > - Все переменные связаны со всеми факторами (несмотря на вращение, нулевых нагрузок практически не бывает) -- > - В результате остается < n факторов, хорошо объясняющих дисперсию переменных -- > - Значение (смысл) фактора определяется исходя из значений переменных с максимальными нагрузками -- > - Нет единого решения, вращение используется для прояснения смысла --- ## EFA: пример 1 - данные "Women Track Records" .pull-left[  ] .pull-right[ <template id="500280b7-7629-49cc-99d1-a92285e789e6"><style> .tabwid table{ border-spacing:0px !important; border-collapse:collapse; line-height:1; margin-left:auto; margin-right:auto; border-width: 0; display: table; margin-top: 1.275em; margin-bottom: 1.275em; border-color: transparent; } .tabwid_left table{ margin-left:0; } .tabwid_right table{ margin-right:0; } .tabwid td { padding: 0; } .tabwid a { text-decoration: none; } .tabwid thead { background-color: transparent; } .tabwid tfoot { background-color: transparent; } .tabwid table tr { background-color: transparent; } </style><div class="tabwid"><style>.cl-a118630a{}.cl-a0ff10bc{font-family:'Arial';font-size:11pt;font-weight:bold;font-style:normal;text-decoration:none;color:rgba(0, 0, 0, 1.00);background-color:transparent;}.cl-a0ff10bd{font-family:'Arial';font-size:11pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(0, 0, 0, 1.00);background-color:transparent;}.cl-a0ff10be{font-family:'Arial';font-size:11pt;font-weight:normal;font-style:normal;text-decoration:none;color:rgba(255, 0, 0, 1.00);background-color:transparent;}.cl-a0ffacde{margin:0;text-align:left;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:5pt;padding-top:5pt;padding-left:5pt;padding-right:5pt;line-height: 1;background-color:transparent;}.cl-a0ffacdf{margin:0;text-align:right;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);padding-bottom:5pt;padding-top:5pt;padding-left:5pt;padding-right:5pt;line-height: 1;background-color:transparent;}.cl-a100dcf8{width:54pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a100dcf9{width:54pt;background-color:transparent;vertical-align: middle;border-bottom: 0 solid rgba(0, 0, 0, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a100dcfa{width:54pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a100dcfb{width:54pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 0 solid rgba(0, 0, 0, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a100dcfc{width:54pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}.cl-a100dcfd{width:54pt;background-color:transparent;vertical-align: middle;border-bottom: 2pt solid rgba(102, 102, 102, 1.00);border-top: 2pt solid rgba(102, 102, 102, 1.00);border-left: 0 solid rgba(0, 0, 0, 1.00);border-right: 0 solid rgba(0, 0, 0, 1.00);margin-bottom:0;margin-top:0;margin-left:0;margin-right:0;}</style><table class='cl-a118630a'><thead><tr style="overflow-wrap:break-word;"><td class="cl-a100dcfd"><p class="cl-a0ffacde"><span class="cl-a0ff10bc">Испытания</span></p></td><td class="cl-a100dcfc"><p class="cl-a0ffacdf"><span class="cl-a0ff10bc">fac1</span></p></td><td class="cl-a100dcfc"><p class="cl-a0ffacdf"><span class="cl-a0ff10bc">fac2</span></p></td></tr></thead><tbody><tr style="overflow-wrap:break-word;"><td class="cl-a100dcf9"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">100 m</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10bd">0.4699619</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.8078593</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a100dcf9"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">200 m</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10bd">0.4203327</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.8566617</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a100dcf9"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">400 m</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.5567042</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.5522074</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a100dcf9"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">800 m</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.8452835</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10bd">0.4316361</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a100dcf9"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">1500 m</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.6234452</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10bd">0.3452561</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a100dcf9"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">3000 m</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.7452052</span></p></td><td class="cl-a100dcf8"><p class="cl-a0ffacdf"><span class="cl-a0ff10bd">0.3747523</span></p></td></tr><tr style="overflow-wrap:break-word;"><td class="cl-a100dcfb"><p class="cl-a0ffacde"><span class="cl-a0ff10bd">Marathon</span></p></td><td class="cl-a100dcfa"><p class="cl-a0ffacdf"><span class="cl-a0ff10be">0.7288162</span></p></td><td class="cl-a100dcfa"><p class="cl-a0ffacdf"><span class="cl-a0ff10bd">0.4136568</span></p></td></tr></tbody></table></div></template> <div class="flextable-shadow-host" id="3b15dd99-dca8-4b70-b650-71fc8e62c069"></div> <script> var dest = document.getElementById("3b15dd99-dca8-4b70-b650-71fc8e62c069"); var template = document.getElementById("500280b7-7629-49cc-99d1-a92285e789e6"); var caption = template.content.querySelector("caption"); if(caption) { caption.style.cssText = "display:block;text-align:center;"; var newcapt = document.createElement("p"); newcapt.appendChild(caption) dest.parentNode.insertBefore(newcapt, dest.previousSibling); } var fantome = dest.attachShadow({mode: 'open'}); var templateContent = template.content; fantome.appendChild(templateContent); </script> ] --- ## EFA: пример 2 - данные исследования восприятия безопасности  --- ## EFA: недостатки -- > - Индуктивная логика, нет опоры на теорию, от данных к объяснению -- > - Субъективная оценка, эвристические правила -- > - Если есть предварительные теоретические представления о том, какие именно показатели измеряют наш конструкт, проведена операционализация, возникает противоречие между методом проверки и задачами -- > - Лучше измерять конструкт более точно, эсплицитно распределять индикаторы по факторам, и доказывать состоятельность теоретической схемы --- ## Конфирматорный факторный анализ (CFA) -- > - Содержит ограничения -- > - Модель разрабатывается заранее, до того, как данные будут получены -- > - Ключевой вопрос: как индикаторы соотносятся с факторами? -- > - Какие индикаторы определяются какими факторами, а какие не определяются? -- > - Могут ли факторы коррелировать друг с другом или они не коррелируют? --- ## EFA vs CFA: условные обозначения .pull-left[  .center[Модель EFA с двумя факторами и шестью индикаторами] ] .pull-right[  .center[Модель CFA с двумя факторами и шестью индикаторами] ] --- ## CFA: ограничение параметров > - Конфирматорный факторный анализ обязательно предполагает ограничение параметров > - Факторные нагрузки индикаторов, которые не относятся к данному фактору, устанавливаются на 0 > - Это позволяет верифицировать теорию измерения, лежащую в основе нашей модели > - Фиксация параметров позволяет переидентифицировать (переопределить) модель ---> оценить качество модели --- ## Неопределенность измерения латентной переменной - Поскольку латентную переменную невозможно измерить непосредственно, необходимо принимать ряд допущений: .small[ 1. Величина ошибок, связанная с отдельными индикаторами, варьируется случайным образом, что при использования больших выборок ведет к получению несмещенных средних этих индикаторов 2. Ошибки индикаторов не коррелируют друг с другом. Единственным источником, связывающим значения индикаторов модели, является латентная переменная. 3. Величина ошибок не коррелирует с истинным значением латентной переменной. ] - Проблема метрики: 2 основных подхода: .small[ 1. Установить дисперсию латентной переменной равной 1 2. Установить факторную нагрузку одного из индикаторов равной 1 (не подходит для тех случаев, когда ЛВ является эндогенной переменной) ] - Второй вариант (2) позволяет получать стандартизированные решения - Чаще всего используется как более гибкий подход - Правило о минимально необходимом количестве индикаторов (ПРАВИЛО 1): .medium[ + 3+ индикатора для модели с одним фактором + 2+ индикатора для модели с двумя факторами и более ] --- ## Формализация и оценка качества модели CFA Модель конфирматорного анализа может быть формализована следующим образом (в соответствии с принятыми стандартами обозначения, см. Bollen, 1989, p. 233; Reinecke, 2014, p. 139): `$$y_i=\Lambda_{y_{ij}}\eta_j+\varepsilon_i, i=1, ...q; j=1,...,m$$` где `\(y_i\)` - это вектор манифестных переменных и `\(\eta_j\)` - это вектор латентных переменных. Факторные нагрузки определяются матрицей `\(\Lambda_{y_{ij}}\)`, а `\(\varepsilon_i\)` - это вектор случайных ошибок измерения. Каждый элемент воспроизведенной матрицы `\(\Sigma(\Theta)\)`,выступающей функцией вектора параметров `\((\Theta)\)`,может быть разложен на сумму и прозведение параметров модели CFA (Bollen, 1989, p. 236; Reinecke, 2014, p. 99): `$$\Sigma(\Theta)=\Lambda_{y_{ij}}\Psi_{jj}\Lambda'_{y_{ij}}+\Theta_{\varepsilon_{y_{ii}}}$$` где `\(\Psi_{jj}\)` - это ковариационная матрица латентных переменных, а `\(\Theta_{\varepsilon_{y_{ii}}}\)` - ошибки дисперсии манифестных переменных `\(y_i\)`. Диагоналые элементы матрицы `\(Ψ_{jj}\)` равны 1.0 для обеспечения шкалы измерения латентных переменных `\(\eta_j\)`. --- ## Формализация и оценка качества модели: продолжение Цель конфирматорного анализа заключается в оценке неизвестных параметров. В случае если модель точно определена (т.е., df = 0), матрица `\(\Sigma(\Theta)\)` полностью воспроизводит исходную матрицу корреляций `\(S\)`, качество модели идеально, каждый параметр может иметь только одно определенное значение. Для модели с переидентификацией (где df > 0), полная подгонка невозможна, так как Σ(Θ) ≠ S. В этом случае оценка модели происходит с помощью функции F(ML), минимизирующей различия между S и Σ(Θ) (Bollen, 1989, p. 107; Reinecke, 2014, p. 101): $$ F_{ML}=log||\Sigma(\Theta)||+tr(S\Sigma^{-1}(\Theta))-log||S||-q $$ где `\(||S||\)` это детерминант матрицы `\(S\)`, а `\(||Σ(Θ)||\)` детерминант матрицы `\(\Sigma\)`, `\(tr(S\Sigma^{-1}(\Theta))\)` след произведения матриц `\(S\Sigma^{-1}(\Theta)\)`, a `\(q\)` - количество наблюдаемых (манифестных) переменных. Если есть отклонения от нормальности в наблюдаемых переменных - необходимо использовать робастные функции оценки максимального правдоподобия ML -- MLM и MLR, которые позволяют рассчитать ошибки и статистику `\(\chi_2\)` по скорректированным формулам (Satorra–Bentler `\(\chi_2\)` statistic). --- ## Абсолютные и независимые индексы, используемые для оценки качества модели .medium[ - Базовой для оценки является статистика `\(\chi_2\)`, высчитываемая по значению функции подгонки `\(F_{ML}\)` - Критика: чувствительность к объему выборки, слишком строгая гипотеза о равенстве `\(\Sigma=S\)` - Вместо `\(\chi_2\)` - root mean square error of approximation (RMSEA): $$ RMSEA=\sqrt\frac{\chi_2-df}{(N-1)df} $$ - Нулевое значение 0 означает полное совпадение, тогда как большие значения указывают на недостаточно хорошее качество модели. Правило: у хорошей модели RMSEA < 0.05, достаточно RMSEA < 0.08. ] <img src="https://www.researchgate.net/publication/328035134/figure/tbl2/AS:677488443269121@1538537240682/Fit-indices-and-cutoff-criteria-used-for-SEM-evaluation.png" width="500"/> --- ## Нестандартная модель CFA - Cтандартный подход: .medium[ - Ошибки индикаторов не коррелируют друг с другом - Ни один индикатор не нагружается более чем одним фактором (идея простой структуры)] - Нестандартный подход: включает коррелирующие ошибки или комплексные индикаторы - Правила идентификации такой модели: 1. Для .purple[**каждого**] фактора требуется выполнение .purple[**хотя бы одного**] из следующих требований (ПРАВИЛО 2.1): .medium[ 1. Есть по меньшей мере .purple[**три индикатора**], ошибки которых не коррелируют друг с другом 2. Есть по меньшей мере .purple[**два индикатора**], чьи ошибки не коррелируют и: + А. Либо эти ошибки не коррелируют ни с одним индикатором из другого фактора + В. Либо нагрузки этих индикаторов ограничены (установлены как равные) ] 2. В .purple[**каждой паре**] факторов есть по крайней мере .purple[**два индикатора**] (по одному из каждого фактора) ошибки которых не коррелируют (ПРАВИЛО 2.2). 3. Для каждого индикатора есть по крайней мере еще .purple[**один индикатор**] в модели с некоррелирующим термином ошибки (ПРАВИЛО 2.3). --- ## Нестандартная модель CFA: продолжение В случае наличия комплексных индикаторов, требуется выполнение следующих условий для обеспечения идентификации модели: Для каждого комплексного индикатора: .medium[ 1.Каждый фактор, от которого зависит комплексный индикатор, должен удовлетворять правилу о количестве индикаторов (ПРАВИЛО 1) и 2. Каждая пара факторов, к которым принадлежат комплексные индикаторы, должна следовать *правилу двух индикаторов с некоррелирующими ошибками* (ПРАВИЛО 2.1.2) 3. Если ошибка комплексного индикатора коррелирует с ошибкой другого индикатора, у каждого фактора, от которого зависит комплексный индикатор, должен быть по меньшей мере еще один индикатор с единственной нагрузкой, ошибка которой не кореллирует с ошибкой комплексного индикатора. ] --- ## Эмпирическая неопределенность - Ситуация, когда модель идентифицируется по структуре, но не идентифицируется из-за данных. - Причины: - оценки параметров, которые должны быть отличными от нуля, в реальности близки к нулю - например в модели с двумя факторами и четырьмя индикаторами для идентификации факторы должны коррелировать, а если корреляция близка к нулю, возникнут проблемы идентификации модели (Rigdon, 1997) - индикаторы должны коррелировать друг с другом в одном факторе, если это не так, могут быть проблемы  --- ## Сравнение средних -- - Типичный вариант SEM как правило не включает средние значения наблюдаемых и латетных переменных -- - Больше внимания уделяется связям - корреляциям, регрессионным зависимостям -- - Однако, иногда исследователя могут заинтересовать средние: .medium[ - сравнение групп - сравнение изменений в течение времени ] --- ## Идентификация средних значений в модели - Как наблюдаемые, так и латентные средние вводятся в модель путем установления константы - Это переменная, значение которой для всех случаев равно 1 - Среднее значение вычисляется через суммацию прямых и косвенных эффектов и нестандартизированные коэффициенты регрессии  --- ##Идентификация моделей со средними значениями -- - Если в модели есть средние, это накладывает дополнительные ограничения, так как нужно вычислять дополнительные неизвестные параметры (латентные средние) -- - Если сравниваются группы, то среднее латентной переменной в одной из групп устанавливается равным 0 -- - Средние в других группах рассматриваются как разности с этим средним (референтным) значением --- ##Формирующие и рефлексирующие индикаторы .meduim[ - Обычно в CFA латентная переменная является предиктором для индикаторов (стрелка идет от латентной переменной к индикатору), например, уровень депрессии влияет на выраженность отдельных показателей, измеряемых тестами - Для некоторых моделей такая логика не подходит, она не работает. Типичный пример: социально-экономический статус, измеряемый через уровень образования, доходы и род занятости - Уровень образования может влиять на социально-экономический статус, но не наоборот -Для таких латентных переменных мы обозначаем индикаторы как формирующие (‘formative’) -В результате латентная переменная вычисляется как взвешенная сумма образующих ее индикаторов - А на диаграмме стрелки идут от индикатора к латентной переменной ]  --- ##Агрегирование индикаторов (Matsunaga, 2008) - Исследователь может определить слишком много индикаторов для одного конструкта - Слишком сложная модель может создать проблемы для оценки и интерпретации - В таких моделях возможна агрегация: объединение индикаторов в группы и получение суммативных индексов - Требование: в каждой группе (parcel) все индикаторы должны относиться только к одному конструкту <img src="https://www.researchgate.net/profile/Ilona-Skoczen-2/publication/284131424/figure/fig2/AS:297050420858917@1447833747448/CFA-model-for-the-child-father-dyad-in-the-CFRT_Q320.jpg" width="500"/> --- ##Факторы второго порядка и выше -- - Обычно латентные переменные измеряются через наблюдаемые индикаторы -- - Однако, мы можем определить латентные факторы более высокого порядка, индикаторами которых выступают другие латентные переменные -- - Такие структуры могут быть использованы для проверки теорий, описывающих сложные многомерные конструкты, такие как интеллект, личностные особенности  --- class: inverse, center, middle Если есть вопросы: <a href="mailto: daria.omelchenko@mail.ru">
daria.omelchenko@mail.ru </a><br>
+7(913) 214 8119</a><br> <a href="https://github.com/domelia">
@domelia</a><br> <a href="https://portal.edu.asu.ru/user/profile.php?id=1498">Сообщения на образовательном портале АлтГУ</a>