Confirmatory Factor Analysis for Applied Research (second edition)

EFA R code

library(“psych”) ####EFA 실행을 위해 library(“GPArotation”) ####oblimin 회전을 위해 fa(data file, nfactors=1,n.obs = NA, n.iter=1, rotate=“oblimin”, scores=“regression”, residuals=FALSE, SMC=TRUE, covar=FALSE, missing=FALSE, impute=“median”, min.err = 0.001, max.iter = 50, symmetric=TRUE, warnings=TRUE, fm=“ML”, alpha=.1, p=.05, oblique.scores=FALSE, np.obs=NULL, use=“pairwise”, cor=“cor”, correct=.5, weight=NULL)

Section 2 - The common Factor Model and Exploratory Factor Analysis


Overview of the Common Factor Model

  • 요인분석은 다변량 통계방법중 하나임.
  • 관측된 측정(indicator)사이의 변량과 공변량 설명을 위한 잠재변수 또는 요인의 특징과 수를 결정함.
  • 요인(FACTOR) : 관측할 수 없는 변수, 관측된 측정에 영향을 주는 변수, 측정사이 상관을 설명 -> 즉, 심리적 구성개념.
  • 관측된 측정(observed measures, indicator) : 측정간 공통된 분산을 요인이 설명하기 때문에 상호연관적. -> 요인이 설명하는 부분이 제외된다면, 상호연관성은 사라짐
  • 측정된 변수들의 수는 요인 수보다 작아야함. indicator의 수 > 요인수(FACTOR)
  • 요인분석은 구성확인(construct validation), 데이터축소(data reduction)으로 사용할 수 있음.
  • 요인분석의 개념은 공통요인모델에서 유래됨. -> 공통요인모델이란 관측된 측정에서 각 indicator는 공통요인과 고유요인의 선형함수로 상정된다는 것.
  • 요인분석은 indicator의 분산을 2가지로 나눔. -> 공통분산 + 고유분산
    • 공통분산 : FACTOR에 의해서 설명되는 분산
    • 고유분산 : specific factor + 오차로 이루어진, FACTOR로 설명되지 않는 분산
  • 공통요인모델에 기반하는 2가지 분석이 탐색적 요인분석(EFA), 확인적 요인분석(CFA)임.
  • EFA, CFA의 목적 : 최소 잠재변수로 indicator 사이 관계를 재현하는 것.
  • EFA, CFA는 세부사항을 제한하는 것, 요인 수 지정에서 차이가 있음.
  • EFA : 공통요인의 적절한 수를 결정. 다양한 잠재차원에서 어떤 측정된 변수들이 타당한 indicator인지 탐색
  • CFA : 연구자가 요인 수, indicator패턴을 명시함. EFA에서는 할 수 없는 제약을 가할 수 있음.
  • 요인부하량은 회귀계수, 상관계수의 변형임. -> 회귀계수나 상관계수로 요인부하량을 해석할 수 있음. (완전표준화된 요인부하량은 상관계수로 해석가능함.)
  • 요인분석에서 공통요인들에 의해 설명되는 indicator의 분산량이 communality임.
  • 요인분석이란 ?
    1. 관찰된, 관측된 값 (상관, 공분산)
    2. 상관, 공분산을 이용해서 요인부하량, 고유분산을 추정.
    3. 요인부하량, 고유분산을 가지고 상관, 공분산을 다시 역 추정.
    4. 1.번과 3.번이 유사할수록 모형이 좋고, 내 모형이 자료를 잘 설명함.

Procedures of EFA

  • EFA목적은 indicator상관을 설명하는 해석가능한 가장 작은 수의 요인을 찾는것. 가장 작은 수의 요인으로 많은 indicators 차원을 평가하는것.
  • EFA의 과정
    1. 요인모델을 추정하기 위한 구체적 방법 선택
    2. 적절한 요인 수 선택
    3. 요인이 1개 이상이라면, 회전기술을 선택
    4. 연구자가 원한다면, 요인점수를 계산하기위한 방법선택

Factor Extraction

  • 공통요인모델을 추정하기 위한 많은 방법이 있음.
  • 연속적 indicator를 가진 EFA에서 가장 자주 사용되는 방법 : 최대우도법(ML), 주요인(PF)
  • ML
    • ML의 장점은 indicator의 관계를 요인 solution이 얼마나 잘 재현하는지 통계적으로 평가함. -> 요인분석 parameter가 input 데이터의 상관관계를 얼마나 근접하게 예측하는지를 평가함.
    • ML은 다변량 정규분포추정이 요구됨. -> 데이터가 정규분포에서 벗어나면, ML을 사용하지 못함.
    • ML의 단점은 부적절한 결과를 만드는 경향이 있는 것. -> 요인모델이 수렴하지 않거나, 1.0이상의 communality를 가진 indicator 같은 범위이탈을 만듬.
  • PF
    • 정규분포추정에서 자유롭다는 장점이 있음.
    • ML보다 부적절한 결과를 만드는 경향이 낮음.
    • 모델 적합성, 요인 수를 결정하는 적합도 지수를 제공하지 않는다는 단점이 있음.
  • PCA(주성분 분석)
    • PCA는 공통요인분석의 추정방법으로 잘 못 분류되어있음. -> EFA와 PCA는 다른것임.
    • PCA는 공통요인모델에 기반하지 않음
    • 공통분산, 고유분산을 구분하지 않음
    • 관측된 측정사이 상관이 아니라 분산을 설명함. -> 관측된 데이터의 분산을 가장 잘 설명하는 주 성분이 무엇인지 알려줌.
    • 큰 관측집단을 줄이기위한 자료축소기술로 사용되는 것이 바람직.
  • 적은수의 잠재차원으로 indicator의 상호연관성을 재현하고, 관측된 측정에서 측정오차의 존재를 인지하는 것이 목적이라면, EFA가 더 적절함.

Factor Selection

  • Factor Extraction 이후 과정임.
  • 요인 수 결정을 위해서 initial 분석결과가 사용됨.
  • 요인 수 결정은 EFA에서 가장 중요함.
    • underfactoring(요인 수 과소추정), overfactoring(요인 수 과대추정)에 의해 요인모형의 타당성과 결과 추정치가 위태로워짐.
  • EFA는 적절한 요인수에 관한 결정을 실질적으로 고려함. -> 실제 연구맥락에 맞춰서 결정, 이론적배경, 선행연구에 맞춰서 결정함.
  • 요인수 선택시 주의점
    1. 요인의 타당성 평가는 요인자체의 해석가능성에 의존함.
      • 요인이 실질적인 중요성을 지니는지 파악하기 위해서 이론적배경, 선행연구가 중요함.
    2. 요인들이 잘 정의되어야함. -> 요인하나에 indicator가 2개, 3개 등 너무 적게 부하되는 것은 좋지 않음.
      • indicator가 너무 적게 부하되면, 미지수를 계산하기 힘들어짐. -> 아는 정보가 부족해서 추정해야할 parameter를 추정하지 못함.
      • 충분히 요인에 관한 이론적 정보를 얻고, 처음에 많은 데이터를 수집해야함.
    3. trivial한 요인이 없는지 확인 해야함.
      • indicator에 영향을 주는 수 많은 요인들 중, 내가 집중하는 요인들 이외의 것들은 모두 trivial임.
  • 알고있는 정보, indicator의 상관, 공분산 계산식 : [p*(p+1)] /2 , p는 변수의 수. ex) O1 ~ O4일 때, 알고있는 정보는 [4(4+1)]/2 = 10개임.
  • Eigenvalue : Factor Extraction을 사용할 때, 요인 선택은 R이나 Rr에서 나온 eigenvalue를 사용함. (eigenvalue : 주성분의 분산)
    • R : 축소되지 않은 상관행렬. 상관행렬 대각에 1.0을 입력
    • Rr : 축소된 상관행렬. 상관행렬 대각에 communality를 입력 -> communality : 고유분산 제거 후, 공통분산 값만을 나타냄.
  • EFA와 같은 다변량 분석은 주로 eigenvalue, eigen vector에 의존함.
    • eigenvalue, eigen vector가 주어진 상관행렬, 분산/공분산 행렬의 분산을 요약해주기 때문임.
    • eigenvalue를 successive factors에 의해서 설명된 indicator의 분산으로 보는 것은 유용함.
  • 축소된 상관행렬보다 원상관행렬을 사용함.
  • 요인선택방법 : eigenvalue 기반

    1. Kaiser-Guttman 규칙
    2. Scree test
    3. Parallel analysis
    • Kaiser규칙 : eigenvalue가 1.0 이상인 것을 요인 수로 결정. -> 1.0 이하라는 것은 Factor가 설명하는 분산이 한개의 indicator 분산 보다 작다는 것. (EFA는 Factor와 indicator를 표준화 하기 때문에 분산 = 1.0)
    • O1 ~ O4, 항목 4개를 Factor 1 주성분이 설명하는 량이 73.3%임. B

    • Scree test : eigenvalue가 세로축(Y축), 요인 수가 가로축(X축), 기울기가 급격하게 변하는 부분, 또는 eigenvalue가 1 이상인 것을 요인 수로 선택.
      단점 : 모호한 결과를 얻을 수 있고, 주관적 해석이 가능함 C

    • Parallel analysis : Scree plot을 겹쳐서 비교하는 방법. 무선 추출한 dataset에서 추정한 eigenvalue의 scree plot과 실제자료에서 추정한 eigenvalue의 scree plot을 겹쳐서 무선 추출한 eigenvalue의 값 보다는 위의 값을 요인 수로 결정하는 것. -> Factor라면 무선자료로 얻어진 자료가 설명하는 분산보다는 더 많은 분산을 설명해야 함. D

  • ML EFA의 장점 : CFA, SEM처럼 요인수의 적절성 여부를 결정할 때 도움이 되는 적합도 정보를 제공함.
  • goodness of fit approach의 목적 : 관찰된 상관에서 재현된 solution이 간명한 모형보다 좋은지 확인해야함. -> 요인수가 증가하면 설명력이 증가함. -> 간명성에 위배됨.
  • 요인선택은 eigenvalue-base접근이나 goodness of fit접근 하나만을 가지고 결정하면 안됨. -> 선행연구, 이론적 배경이 필요함.
    • 적합도가 좋지만 수용 불가능한 경우
      1. 요인이 탄탄한 개념적 기반이나 유용성을 가지지 않을때.
      2. 빈곤한 요인일때. (1개 또는 2개의 indicator만 부하량이 높은경우)
      3. 어떠한 요인에도 indicator의 명백한 부하량이 없을때.
      4. 높은 indicator의 부하량이 너무 많은 요인에 걸릴때.

EFA Factor Matrix

A

A

  • Factor Matrix 해석
    • indicator O1 ~ O4의 요인부하량이 Factor 1 밑에 나타남.
    • EFA결과 : 완전표준화 -> 요인부하량은 표준화된 회귀계수.
    • Factor 1이 한 단위 증가할 때, 각 indicator가 증가하는 정도가 요인부하량.
    • 요인부하량의 제곱은 회귀분석의 R square 처럼 Factor 1이 각 indicator의 분산을 얼마나 설명하는지 %로 볼 수 있음.
    • communality값은 고유분산 제거 후, 공통분산 값.
    • eigenvalue는 고유값, 전체분산을 설명하는 주성분의 분산.
    • 요인 수를 결정할 때, eigenvalue를 사용함. -> eigenvalue 1.0 이상일 때, 요인 수로 선택 할 수 있음. eigenvalue를 사용하기 위해서는 축소되지 않은 상관 행렬(고유분산을 제거하지 않음)을 사용해야함.
    • pct of var의 값 : 64.5는 Factor 1 이 indicator O1 ~ O4를 64.5% 설명한다는 뜻.
    • EFA는 요인 수 적합에 관한 적합도만 제공함.

Factor Rotation

  • 요인회전을 하는 이유 : 해석가능성을 높이기 위함.
  • 요인 회전이 요인 solution을 바꾸지 않음. -> 자료설명량이 바뀌지 않음. 회전 전과 회전 후에 카이제곱 값은 같음.
  • 좋은 적합도를 가지고 있는 요인부하량이 다른 solution이 무한하게 존재함. -> 관찰된 상관계수를 설명하는 요인부하량은 무한하고, 이중에서 해석가능성이 높은 요인부하량을 찾는 것이 요인회전임.
  • 해석 가능성을 쉽게 하기 위해서 요인부하량이 가장 단순한 구조를 찾음.
  • 요인부하량은 높게 cross-loading은 0에 가까운 solution이 해석하기 쉬움.
  • 요인 회전에는 사교회전과 직교회전이 있음.
  • 직교회전 : ’요인 간 상관이 없다’라는 가정을 가지며, 축이 90도를 유지, 요인상관을 고려하지 않기 때문에 요인부하량이 사교회전보다 큼. (varimax)
  • 사교회전 : 요인 간 상관을 허용함. (promax)
    • 사교회전이 선호되는 이유
      1. 요인간 상관을 가정하는 것이 더 현실적.
      2. 요인간 상관이 있다면 상관의 규모를 정확히 표현해줌
      3. 요인간 상관이 없다면, 직교회전과 같은 solution을 제공함
      4. 사교회전에 CFA에 적용시키기 더 쉬움
  • 사교회전결과는 패턴행렬과 구조행렬로 나타남. 패턴행렬을 해석하고 보고함. E

  • 사교회전 결과는 패턴행렬과 구조행렬로 나타남.
  • 패턴행렬
    • 요인부하량이 요인과 indicator간의 고유관계를 보여줌.
  • 구조행렬
    • 요인부하량이 요인과 indicator간의 고유관계 + indicator와 요인간 공유분산간의 관계를 보여줌. -> indicator와 주어진 요인의 zero-order relationship(원래 둘 간의 상관)을 나타냄.
  • 패턴행렬이 주로 해석되고 보고됨.

Section 3 - Introduction to CFA


CFA

F

F

  • CFA 모델
    • CFA는 모든 계수의 교차 적재량을 0으로 고정하여, primary loading을 최대로하고 cross loading을 최소로하는 회전이 필요 없음.
    • CFA는 비표준화, 부분표준화, 완전 표준화가 가능함. -> 분산,공분산 구조와 평균구조에 관한 분석을 수반함.
    • CFA는 원척도의 단위가 갖고 있는 의미, 분산, 실체를 파악할 수 있음.
    • Y1을 설명하는 변수는 Factor 1과 E1임.
    • EFA는 cross loading이 있기 때문에, CFA와 EFA에서 모두 Factor간 상관이 있을 때, CFA가 상관이 더 높게 나올 수 있음. CFA는 cross loading에 제약이 있기 때문에 Factor상관으로 표현됨.
    • CFA는 요인 수를 정하고, 요인계수의 패턴을 정하고, 적합한 오차 이론을 추정할 수 있음.
    • CFA모형 = 요인계수 + 고유분산 + 요인분
H

H

  • CFA 모델 (오차상관 free)
    • CFA모델은 EFA와 다르게 측정오차(measurement errors, unique variance)의 관계를 구체화 할 수 있음
    • EFA보다 CFA가 parameter수가 적기 때문에 간명한 모델임.
    • CFA에서는 오차간 상관도 추정 가능함.
    • congeneric = 하나의 요인으로부터 영향을 받는 indicator들, 위 모형에서는 Y1 ~ Y4가 congeneric임.
    • 단일요인으로 문항들이 설명되는 형태가 congeneric임.
    • Factor loading의 제곱 = 요인이 indicator를 설명하는정도. loading의 제곱 = communality.
    • communality + specific variance = indicator variance
I

I

  • Model comparison
    • CFA는 요인계수, 고유분산을 모두 동일하게 제약을 가할 수 있음.
    • 제약을 가해서 모델을 간명하게 만드는 이유 : 데이터를 설명하는 모델은 간명할 수록 좋음.
    • model p는 요인계수에 제약을 가하지 않은 모형, model n은 요인계수에 제약을 가한 모형.
    • 모델이 복잡할 수록 적합도는 올라감. 데이터를 설명하기위해서 parameter를 추가할 수록 적합도는 올라가지만 모델은 매우 복잡해짐.
    • 적절한 적합도를 가지는 간명한 모델로 데이터를 설명하는 것이 좋음.
    • model p가 model n보다 적합도는 좋지만 더 복잡한 모형임.
    • model n의 적합도가 model p의 적합도에 비해 많이 떨어지지 않는다면, 제약을 가해서 더 간명한 모델로 데이터를 설명하는 것이 좋음.
    • 적합도, 설명력이 얼마나 떨어지 카이제곱으로 검증함.
G

G

  • EFA 모델
    • EFA는 CFA와 다르게 사전제한이 없어, 모든 Factor로부터 cross loading이 자유롭게 추정
    • EFA는 CFA와 다르게 오차간 상관을 가정하지 못함. -> 측정오차는 모두 랜덤. (오차간 상관이 없다는 가정이 있어야 EFA가 실행됨)

CFA Identification, Estimation

  • CFA에서 parameter(요인계수, 고유분산, 요인분산 등)를 추정하기 위해서 반드시 식별(identified)되어야함.
  • data에서 알 수 있는 관찰된 상관, 공분산 등이 알고 있는 정보라면, 추정해야하는 parameter보다 정보량이 같거나 많아야함.
  • 아는정보 < 추정할 미지수 = underidentified(과소식별) -> 과소식별은 식별 불가능.
  • 아는정보 > 추정할 미지수 = overidentified(과대식별)
  • 아는정보 = 추정할 미지수 = justidentified(적정식별)
  • 알고있는 정보 - 추정할 미지수 = 자유도(df) -> (df > 0) 모형 식별하기 필요한 것이지 충분한 것은 아님.
    • df 계산법 = 알고있는 정보는 p(p+1)/2로 계산, indicator가 5개라면 알고 있는 정보는 5(5+1)/2 = 15임. 추정해야할 미지수는 = factor loading, factor correlation, error variance, error correlation 등 추정해야할 parameter 갯수를 다 더함.
  • 아는정보 계산 = indicator수를 p라 할때, p(p+1)로 계산함. input matrix에 0이포함되면 정보가 부족함.
  • CFA를 수행하기 위해서는 척도(scale)가 식별되어야함. Factor는 관찰할 수 없는 개념이기 때문에 단위가 없음. -> 단위를 지정해야 추정이 가능함. 아래 1. ~ 3.번이 단위를 지정하는 방법임.
    1. 요인분산을 1로 고정
    2. 요인부하량을 1로 고정
    3. 요인부하량의 합이 0
  • 내가 가진 자료를 간명한 모형으로 표현, solution은 항상오차가 있음. -> 오차를 줄이기 위해서 선택하는 방법 = fitting function.
  • CFA의 목적은 표본의 분산, 공분산행렬(S)과 유사한 분산, 공분산행렬(시그마)을 예측하는 것.
  • (예측한 분산, 공분산 행렬) - (표본의 분산, 공분산 행렬)의 차이를 최소화하기 위한 방법으로 ML을 사용.
    • ML의 가정
      1. 충분이 큰 표본
      2. indicator가 연속척도(카테고리 5개이상부터 연속임. 2점, 3점 척도를 억지로 늘리지 말고 ML말고 다른 방법을 사용)
      3. indicator가 다변량 정규분포
    • ML의 가정이 깨졌을 때 = 1. 표본이 비정규성, 2. indicator가 범주형
      • ML의 가정이 깨졌을 때, 사용하는 방법으로는 MLR, MLM, WLS, WLSMV가 있음.
      • 비정규성은 편향된 표준오차를 불러옴.
      • 비정규성이 심하면 ML은 정확하지 않은 모수 추정치를 산출할 가능성이 높음.
        • 표본이 비정규성일때,
          • MLM
          • MLR = 편포되어 있는 연속변수들의 상관을 그냥 추정
        • indicator가 범주형일 때,
          • WLS = 표본수가 많을 때, 사용함. 최소자승으로구함.
          • WLSMV = 표본수가 적을 때, 사용함. 범주형으로 만들거나, 범주형자료를 분석.
      • 분포에 상관없이 LQ, OLQ = 입력데이터 상관, 모형상관을 제곱하여 합한것을 최소화하는 추정치를 찾음.
    • CFA모형 추정에서 ML을 사용하는 이유
      1. 바람직한 통계학적 속성을 지님
      2. 표준오차를 제공함(표준오차는 모수 추정에서 통계적 유의미성 검증시 이용)
      3. Fml 값이 goodness of fit 계산시 유요
  • 분산, 공분산행렬의 차이를 줄일 수 없을 때, 수렴(convergence).
  • 모형이 복잡하면, 수렴하기 전에 프로그램이 정지함. (오류가 생겼을 때, solution은 아래 1~4번임)
    1. iteration의 최대 횟수를 늘림
    2. starting value를 바꿈함 (미지수 대입을 시작하는 값)
    3. 더 간단한 모형으로 바꾸거나 모형을 정교화함
    4. 자료가 잘 못 되었거나, 자료를 다시 모아야함
  • 모형 convergence 이슈를 줄이기 위해서 EFA를 기반으로 CFA를 하면 오류의 원인을 찾을 수 있음.
    (EFA는 convergence 오류가 적기 때문임.) *자료의 분포 = 분포가 편포되어 있을때, 피어슨 상관이 1이 아님. -> 관련이 있음에도 분포 때문에 상관값이 낮고, 상관값이 낮아서 요인계수 값이 낮음 (상관이 높지만 분포 때문에 상관값이 낮으면, 상관,공분산을 사용하는 요인계수 값도 낮음)

CFA Goodness of fit indices

  • 적합도 지수는 3가지 카테고리로 분류됨
    1. absolute fit
    2. fit adjusting for model parsimony
    3. comparative or incremental fit
  • Absolute fit = 가장완벽한 모형에서 내 모형 적합도가 얼마나 떨어졌는가? 가설의 합리성만 평가.
    1. 카이제곱
    • 카이제곱 영가설 = 실제 분산-공분산 행렬과 모델이 추정한 분산-공분산 행렬이 동일하다.
    • 카이제곱이 통계적으로 유의한 경우 = 모델이 실제 분산-공분산 행렬을 재현하지 못한다. = 모델이 실제 자료를 잘 설명하지 못한다. 로 해석됨.
    • 카이제곱 통계량은 표본수에 영향을 많이 받아서 표본이 클수록 통계적으로 유의해짐.
    1. SRMR = RMR의 표준화. 잔차 상관행렬로부터 구해짐. 관찰된 input행렬과 모형이 예측한 행렬의 상관차이의 평균을 구한 값.
    2. RMR = 관찰된 공분산과 예측된 공분산의 차이의 평균 값. RMR은 해석하기 어려워 SRMR이 선호됨.
  • Parsimony correction = 모형이 현실을 100% 설명한다는 것은 불가능.
    1. RMSEA = 비중심 카이제곱 분포에 의존하는 모수 기반 지수. 중심이 자유도인데, 자유도에서 얼마나 벗어나 있는가?. 내모형이 자료를 얼마나 근사로(간단하게) 설명하는가?. absolute level이 같다면 추정해야할 파라미터가 적은 모델이 더 좋은 것.
  • Comparative fit = 가장 나쁜모형(기저선모형(baseline model))에서 내 모형이 얼마나 향상되었는가?
    1. CFI = 완벽한 모형 - 연구자모형/기전선모형. 연구자모형과 기저선모형의 비율을 완벽한모형(1)에서 뺌.
    2. TLI = 기저선모형 - 완벽한모형/기저선모형 - 연구자모형. 기저선모형을 기준으로 완벽한모형과 연구자모형의 차이 비율.

- Goodness of fit Indices 요약
- SRMR = 0에 근사할수록 더 좋은 적합도를 의미함.
- RMSEA = 0.05에 근사하거나 0.05이하, 0에 가까울수록 더 좋은 적합도를 의미함.
- CFI, TLI = 0.95근사 또는 이상. 1에 가까울 수록 좋음.

Section 4 - Specification and Interpretation of CFA


Example of a CFA Measurement Model

Correlation Standard Deviation(SD)

J

J

library(xlsx)
correlation<-read.xlsx("cor.xlsx", header = F, sheetName = 1)
print(correlation)
##       X1     X2     X3     X4    X5    X6    X7 X8
## 1  1.000     NA     NA     NA    NA    NA    NA NA
## 2  0.767  1.000     NA     NA    NA    NA    NA NA
## 3  0.731  0.709  1.000     NA    NA    NA    NA NA
## 4  0.778  0.738  0.762  1.000    NA    NA    NA NA
## 5 -0.351 -0.302 -0.356 -0.318 1.000    NA    NA NA
## 6 -0.316 -0.280 -0.300 -0.267 0.675 1.000    NA NA
## 7 -0.296 -0.289 -0.297 -0.296 0.634 0.651 1.000 NA
## 8 -0.282 -0.254 -0.292 -0.245 0.534 0.593 0.566  1
  • Correlation table은 실제 data correlation임.
  • x1과 8의 상관 -0.282가 0에 가깝거나 값이 너무 다르면, Neuroticism과 Extraversion에 의해 설명되는 것이 아닐 수도 있음
  • x2의 값이 없다면, x1과 x2사이 관계파악으로 x2값을 예측함.
  • 표준편차는 분산, 공분산 계산을 위해 필요함.
  • 데이터 입력은 raw데이터 또는 raw데이터의 상관을 사용.
  • 자신의 상관은 1이며, 개별 상관은 -1< <1 (-1이상, 1이하)
  • 서로 상관들 중에 불가능한 조합이 있음 (변수 3개의 3개 상관조합 중 불가능한 조합이 있음)
  • 결측치 있을 때, 사용하는 방법
    • list wise : 결측치가 하나라도 있으면, 케이스를 지움.
    • pair wise : 변수에 결측치가 있으면 결측치 제거. (pair wise로 결측치를 빼고 상관을 구하면 상관행렬이 되지 못할 수 도 있음)

Model specification

  • 어떤 indicator가 좋은 indicator인지 모를때, marker의 선택은 매우중요함.
  • marker를 요인과 상관이 너무 낮은 것으로 지정하면 오류가 발생함. (indicator를 잘 못 쓰면 결과가 나오지 않음)
  • Factor가 종속일 때, 분산을 1로 놓고 요인분석을 할 수 없음.
  • 탐색적 요인분석을 실시해서, marker indicator를 찾을 수 있음. (EFA는 indicator 분산을 1로 풀어줌)
  • Factor의 하위척도의 범위가 너무 차이나면 오류가 발생할 수 있음. 단위, 범위를 맞춰줘야함.

Mplus

library(MplusAutomation)
## Version:  0.7-2
## We work hard to write this free software. Please help us get credit by citing: 
## 
## Hallquist, M. N. & Wiley, J. F. (2018). MplusAutomation: An R Package for Facilitating Large-Scale Latent Variable Analyses in Mplus. Structural Equation Modeling, 1-18. doi: 10.1080/10705511.2017.1402334.
## 
## -- see citation("MplusAutomation").
A<-readModels(target = "c:/Users/LG/Documents/Factor Analysis/tab4.1.out", recursive = T)
## Reading model:  c:/Users/LG/Documents/Factor Analysis/tab4.1.out
print(A$summaries)
##   Mplus.version                                            Title
## 1             7 TWO FACTOR MODEL OF NEUROTICISM AND EXTRAVERSION
##   AnalysisType                 DataType Estimator Observations NGroups
## 1      GENERAL STDEVIATIONS CORRELATION        ML          250       1
##   NDependentVars NIndependentVars NContinuousLatentVars Parameters
## 1              8                0                     2         17
##   ChiSqM_Value ChiSqM_DF ChiSqM_PValue ChiSqBaseline_Value
## 1       13.285        19        0.8237            1253.791
##   ChiSqBaseline_DF ChiSqBaseline_PValue        LL UnrestrictedLL CFI   TLI
## 1               28                    0 -5748.501      -5741.858   1 1.007
##     AIC      BIC     aBIC RMSEA_Estimate RMSEA_90CI_LB RMSEA_90CI_UB
## 1 11531 11590.87 11536.98              0             0         0.034
##   RMSEA_pLT05  SRMR     AICC   Filename
## 1        0.99 0.019 11533.64 tab4.1.out
print(A$parameters)
## $unstandardized
##           paramHeader  param     est    se  est_se pval
## 1           NEUROT.BY     N1   1.000 0.000 999.000  999
## 2           NEUROT.BY     N2   0.942 0.052  17.981    0
## 3           NEUROT.BY     N3   1.071 0.060  17.791    0
## 4           NEUROT.BY     N4   0.997 0.052  19.312    0
## 5           EXTRAV.BY     E1   1.000 0.000 999.000  999
## 6           EXTRAV.BY     E2   1.074 0.079  13.636    0
## 7           EXTRAV.BY     E3   0.935 0.072  12.927    0
## 8           EXTRAV.BY     E4   0.814 0.072  11.247    0
## 9         EXTRAV.WITH NEUROT -10.512 1.920  -5.476    0
## 10          Variances NEUROT  25.335 2.900   8.736    0
## 11          Variances EXTRAV  23.054 3.188   7.232    0
## 12 Residual.Variances     N1   7.025 0.907   7.746    0
## 13 Residual.Variances     N2   8.747 0.999   8.755    0
## 14 Residual.Variances     N3  11.760 1.328   8.855    0
## 15 Residual.Variances     N4   7.188 0.916   7.846    0
## 16 Residual.Variances     E1  12.802 1.581   8.100    0
## 17 Residual.Variances     E2  11.671 1.602   7.285    0
## 18 Residual.Variances     E3  12.192 1.458   8.361    0
## 19 Residual.Variances     E4  15.972 1.666   9.587    0
## 
## $r2
##   param   est    se est_se pval
## 1    N1 0.783 0.032 24.774    0
## 2    N2 0.720 0.036 19.976    0
## 3    N3 0.712 0.037 19.434    0
## 4    N4 0.778 0.032 24.345    0
## 5    E1 0.643 0.047 13.602    0
## 6    E2 0.695 0.045 15.386    0
## 7    E3 0.623 0.048 12.966    0
## 8    E4 0.489 0.053  9.239    0
## 
## $stdyx.standardized
##           paramHeader  param    est    se  est_se pval
## 1           NEUROT.BY     N1  0.885 0.018  49.547    0
## 2           NEUROT.BY     N2  0.849 0.021  39.952    0
## 3           NEUROT.BY     N3  0.844 0.022  38.868    0
## 4           NEUROT.BY     N4  0.882 0.018  48.691    0
## 5           EXTRAV.BY     E1  0.802 0.029  27.203    0
## 6           EXTRAV.BY     E2  0.834 0.027  30.772    0
## 7           EXTRAV.BY     E3  0.789 0.030  25.931    0
## 8           EXTRAV.BY     E4  0.699 0.038  18.478    0
## 9         EXTRAV.WITH NEUROT -0.435 0.059  -7.410    0
## 10          Variances NEUROT  1.000 0.000 999.000  999
## 11          Variances EXTRAV  1.000 0.000 999.000  999
## 12 Residual.Variances     N1  0.217 0.032   6.869    0
## 13 Residual.Variances     N2  0.280 0.036   7.770    0
## 14 Residual.Variances     N3  0.288 0.037   7.871    0
## 15 Residual.Variances     N4  0.222 0.032   6.952    0
## 16 Residual.Variances     E1  0.357 0.047   7.553    0
## 17 Residual.Variances     E2  0.305 0.045   6.747    0
## 18 Residual.Variances     E3  0.377 0.048   7.838    0
## 19 Residual.Variances     E4  0.511 0.053   9.668    0
## 
## $stdy.standardized
##           paramHeader  param    est    se  est_se pval
## 1           NEUROT.BY     N1  0.885 0.018  49.547    0
## 2           NEUROT.BY     N2  0.849 0.021  39.952    0
## 3           NEUROT.BY     N3  0.844 0.022  38.868    0
## 4           NEUROT.BY     N4  0.882 0.018  48.691    0
## 5           EXTRAV.BY     E1  0.802 0.029  27.203    0
## 6           EXTRAV.BY     E2  0.834 0.027  30.772    0
## 7           EXTRAV.BY     E3  0.789 0.030  25.931    0
## 8           EXTRAV.BY     E4  0.699 0.038  18.478    0
## 9         EXTRAV.WITH NEUROT -0.435 0.059  -7.410    0
## 10          Variances NEUROT  1.000 0.000 999.000  999
## 11          Variances EXTRAV  1.000 0.000 999.000  999
## 12 Residual.Variances     N1  0.217 0.032   6.869    0
## 13 Residual.Variances     N2  0.280 0.036   7.770    0
## 14 Residual.Variances     N3  0.288 0.037   7.871    0
## 15 Residual.Variances     N4  0.222 0.032   6.952    0
## 16 Residual.Variances     E1  0.357 0.047   7.553    0
## 17 Residual.Variances     E2  0.305 0.045   6.747    0
## 18 Residual.Variances     E3  0.377 0.048   7.838    0
## 19 Residual.Variances     E4  0.511 0.053   9.668    0
## 
## $std.standardized
##           paramHeader  param    est    se  est_se pval
## 1           NEUROT.BY     N1  5.033 0.288  17.472    0
## 2           NEUROT.BY     N2  4.742 0.290  16.337    0
## 3           NEUROT.BY     N3  5.389 0.333  16.190    0
## 4           NEUROT.BY     N4  5.017 0.289  17.381    0
## 5           EXTRAV.BY     E1  4.801 0.332  14.465    0
## 6           EXTRAV.BY     E2  5.159 0.337  15.294    0
## 7           EXTRAV.BY     E3  4.491 0.317  14.150    0
## 8           EXTRAV.BY     E4  3.907 0.326  11.974    0
## 9         EXTRAV.WITH NEUROT -0.435 0.059  -7.410    0
## 10          Variances NEUROT  1.000 0.000 999.000  999
## 11          Variances EXTRAV  1.000 0.000 999.000  999
## 12 Residual.Variances     N1  7.025 0.907   7.746    0
## 13 Residual.Variances     N2  8.747 0.999   8.755    0
## 14 Residual.Variances     N3 11.760 1.328   8.855    0
## 15 Residual.Variances     N4  7.188 0.916   7.846    0
## 16 Residual.Variances     E1 12.802 1.581   8.100    0
## 17 Residual.Variances     E2 11.671 1.602   7.285    0
## 18 Residual.Variances     E3 12.192 1.458   8.361    0
## 19 Residual.Variances     E4 15.972 1.666   9.587    0
print(A$residuals)
## $covarianceEst
##         N1      N2      N3      N4     E1     E2     E3     E4
## N1  32.360      NA      NA      NA     NA     NA     NA     NA
## N2  23.869  31.234      NA      NA     NA     NA     NA     NA
## N3  27.122  25.553  40.796      NA     NA     NA     NA     NA
## N4  25.253  23.792  27.035  32.360     NA     NA     NA     NA
## E1 -10.512  -9.904 -11.254 -10.478 35.856     NA     NA     NA
## E2 -11.295 -10.641 -12.092 -11.258 24.771 38.286     NA     NA
## E3  -9.832  -9.263 -10.526  -9.800 21.563 23.168 32.360     NA
## E4  -8.553  -8.058  -9.157  -8.526 18.758 20.155 17.545 31.235
## 
## $covarianceResid
##        N1     N2     N3     N4     E1     E2   E3 E4
## N1  0.000     NA     NA     NA     NA     NA   NA NA
## N2  0.516  0.000     NA     NA     NA     NA   NA NA
## N3 -0.562 -0.244  0.000     NA     NA     NA   NA NA
## N4 -0.077 -0.329  0.651  0.000     NA     NA   NA NA
## E1 -1.444 -0.203 -2.362 -0.354  0.000     NA   NA NA
## E2  0.172  0.958  0.235  1.860  0.239  0.000   NA NA
## E3  0.253  0.075 -0.266  0.222  0.033 -0.254 0.00 NA
## E4 -0.412  0.125 -1.267  0.737 -0.888  0.352 0.45  0
## 
## $covarianceResid.std
##         N1     N2     N3     N4     E1     E2    E3 E4
## N1   0.012     NA     NA     NA     NA     NA    NA NA
## N2   1.209  0.011     NA     NA     NA     NA    NA NA
## N3 999.000 -0.648  0.009     NA     NA     NA    NA NA
## N4  -0.421 -2.107  1.269  0.012     NA     NA    NA NA
## E1  -1.169 -0.162 -1.558 -0.294  0.006     NA    NA NA
## E2   0.153  0.813  0.169  1.737  0.562  0.006    NA NA
## E3   0.221  0.062 -0.189  0.192  0.074 -0.834 0.004 NA
## E4  -0.311  0.093 -0.801  0.566 -1.717  0.588 0.659  0
## 
## $covarianceResid.norm
##        N1     N2     N3     N4     E1     E2    E3 E4
## N1  0.000     NA     NA     NA     NA     NA    NA NA
## N2  0.204  0.000     NA     NA     NA     NA    NA NA
## N3 -0.198 -0.088  0.000     NA     NA     NA    NA NA
## N4 -0.030 -0.132  0.225  0.000     NA     NA    NA NA
## E1 -0.633 -0.092 -0.920 -0.157  0.000     NA    NA NA
## E2  0.074  0.422  0.090  0.807  0.085  0.000    NA NA
## E3  0.119  0.036 -0.111  0.104  0.013 -0.096 0.000 NA
## E4 -0.197  0.061 -0.539  0.356 -0.370  0.138 0.195  0
## 
## attr(,"class")
## [1] "list"            "mplus.residuals"
unstandardized

unstandardized

Model Evaluation

  • CFA연구에서 가장 흔하게 나오는 오류는 모형을 적합도만으로 평가하는 것.
  • 기술적 적합도 지수(Descriptive fit index)는 모형의 적합도 부족 정도에 대한 정보를 제공하는데 가장 좋음. = overall goodness fit
  • 지수들이 오특정화(misspecified model)라는 결론을 제공하지만, 적합도 지수만으로 좋은모형이라는 결론을 내릴 수 없음.
    • 현실을 100%반영하면 misspecified 없음.
  • anchor, marker indicator의 람다는 1로 고정되는데, 비표준화일 때는 1로 표현되고 표준화하면 1을 표준화한 값을 보여줌.
  • anchor, marker indicator지정은 기본적으로 요인부하량이 높은 것을 선택함.

Overall Goodness of Fit

  • 모형전체가 자료를 얼마나 잘 설명하는지 나타남.
  • 모형 채택가능성을 평가하기 위한 적합도 지수들이 좋은 모형적합도와 일치하면, 모형이 적절하게 특정화 되었다는 것을 나타냄.
    (fit index = good model fit)
  • 지수들이 낮은 적합도를 나타낸다면, 오특정화가 나타난 원인을 찾아야함. -> modification index, 표준화잔차 등을 조사.
  • 적합도 지수가 모형의 적합도에 관한 정보와 일치하지 않게 나오는 경우 -> solution의 채택가능성과 오특정화의 잠재적 원인을 결정할 때, 더 주의를 기울여야함. Ex(SRMR과 CFI가 absolute level에서 채택가능하다고 나타났지만, RMSEA > .08이 간명성부족을 나타내는 경우)
  • 즉, overall goodness of fit은 전반적인 설명이지 자세한 부분까지 설명력이 좋은건 아님.

Localized Areas of Strain

  • 적합도 통계량의 한계는 indicator간의 관측된 관계를 재현하는 능력에대한 전반적, 기술적 지표만 나타남.
  • CFA solution에서 오적합(misfit)이 나타나는 부분을 확인하는데 residual, modification indices 같은 통계량이 자주 사용됨
    1. Residual
    2. Modification indices
    3. 해석가능성

      1. Residual
      • CFA 모형과 관련 있는 3개의 행렬이 있음.
        • 표본 분산-공분산 행렬(S)
        • 모형이 제시하는(model implied)분산-공분산 행렬(sigma)
        • 잔차행렬(S - sigma)
        표본 모데
        • 공통요인모델로 설명되는 부분이 23.9650임.
        • 잔차행렬은 모형의 parameter추정에 의해 각 분산과 공분산이 얼마나 잘 재현되는지 특정정보를 제공함.
        • fitted residual은 해석하기 힘들고, indicator의 측정단위가 현저하게 다르면 fitted residual의 크기를 결정하기 힘듬 -> 표준화 잔차를 이용하여 해결함.
          • 표준화잔차 = fitted residual / 추정된 표준오차 (Z점수와 유사)
        • 표준화잔차 : 완벽적합모형의 0잔차와 fitted residual이 몇 표준오차만큼 차이가 나는지 나타냄.
        • n이 커지면 misspecified 모델의 수가 증가함, 즉 오차를 더 분명하게 보여줌.
        • n이 커지면 표준오차는 작아지고 표준화 하잔차는 증가함하 -> 무엇이 틀렸는지 파악가능
        • 표준화잔차는 양의 값과 음의 값을 가질수 있음.
          • 표준화잔차가 양의 값 : 모형의 parameter가 indicator의 관계를 과소추정함. -> indicator들 간의 공분산을 더 잘 설명하기 위해 모형에 추가적인 parameter가 필요함.
          • 표준화잔차가 음의 값 : 모형의 parameter가 indicator의 관계를 과대추정함.
        • 잔차가 크다면, 오차상관을 고려해야함. n이 커서 표준화잔차가 큰건지 고려해야함.
        • 잔차가 너무 크다면, 공통요인 이외에 설명할 부분이 필요함. -> 오차상관(고유요인상관)을 고려
        • 오차상관추가, 공통요인추가는 이론적배경이 필요함.
        • 위 결과는 표준화잔차 범위가 -1.65 ~ 1.87이기 때문에, solution에 부적합한부분(localized areas of ill fit)이 없다는 결론이 나옴.
      1. Modification Indices
      • Modification Indices는 고정, 제한된 parameter가 자유롭게 추정되면 모형의 카이제곱이 얼마나 감소하는지를 나타냄. -> fit이 얼마나 더 좋아지는가?
      • Modification Indices는 parameter가 고정, 제한된 모형과 parameter가 자유 추정된 모형의 전반적 모형 카이제곱 차이와 일치함. modification
      • 빨간 네모 부분 : 0으로 고정한 parameter를 자유롭게 추정하면 감소하는 카이제곱값. -> 즉, E1이 NEUROT로가는 parameter를 0으로 제약하지 않고 자유롭게 추정하면 카이제곱값이 1.3206만큼 줄어든다.
      • 파란 네모 부분 : 0으로 고정한 parameter를 실제로 추정하면, 나타나는 요인계수. -> 실제로 요인계수를 추정하면 E1이 NEUROT에 부하되는 량은 -0.0613이며, 이는 0에 가까운 값이다.
      • 잔차행렬의 차이를 계산해서 모델이 적합하지 않다면, 카이제곱값이 늘어남. 오차상관
      • 빨간 네모 부분 : indicator 오차상관을 허용하면 카이제곱이 얼만큼 줄어드는지 나타남. -> N1과 N2의 오차상관을 허용하면, 카이제곱이 3.2020만큼 줄어듬.
      • 파란 네모 부분 : 실제오차상관 loading 값이 나타남. -> N1과 N2의 오차상관을 허용하면 실제오차상관이 0.0482며, 0에 가까운 오차상관이다.
      • modification indices는 고정된 parameter를 free로 하면 카이제곱이 얼마나 떨어지는지, 실제 free로 놓고 추정한 값이 얼마인지 보여줌. -> 가장 큰 값을 찾아서 free로 하면 카이제곱이 많이 떨어짐.
      • 특정 데이터에서만 카이제곱을 많이 줄이는 parameter가 있음. -> 이론상 중요한지, free로 놓고 해석가능한지, 해석가능한 이론적 배경이 있을때, fixed parameter를 free로 해야함.
      • 모형은 자료를 100% 설명할 수 없기 때문에 모형에서 생긴 불일치가 있음.
      • modification index도 표본크기에 민감함. -> parameter이 크기, 오차상관 등이 작아도 표본크기가 크면 free로 추정해야한다고 나타날 수 있음.
      • EPC 값은 고정된 parameter를 free로 했을 때의 실제 값을 나타냄.
      • model respecification의 핵심원리는 modification index와 표준화 잔차를 참고하여 respecification해야하는 설득력있는 실제적인 근거가 있을 때, parameter의 EPC값이 분명할 때만 parameter를 free로 해야함.
      • 진실모형과 오류모형을 비교할 때, 오류모형 modification을 보고 parameter를 free로 하였는데 진실모형이 되진 않음 -> 이론적 근거가 있는 modification을 free로 놓아야 진실모형에 가까워짐. (실제 0에 가까운데 n수가 커서 카이제곱의 값이 커질 있음 -> 이런 것들을 fixed, free로 하면 카이제곱 값은 요동치지만 실제 변화는 0에 가까움)
      • 모델 수정은 선행연구와 이론이 뒷받침되는 parameter에 대해서만 이루어져야함.
      • CFA에서 modification indices로 모형을 수정하면 탐색적으로 돌아감.
      1. Unnecessary Parameters
      • 모형의 수정은 불필요한 parameter를 제거하는 것으로도 가능함.
      • 크기가 큰 음의 값(-)을 가진 표준화 잔차가 불필요한 psrameter의 존재를 나타낼 수 있음 -> 음의 값을 가진 표준화 잔차는 모형이 indicator간의 관계를 과추정하기 때문에 발생함.
      • univariate Wald test로 통계적 유의성을 판단함.
        • Wald test : free로 추정한 parameter가 0으로 고정 되었을 때, 전반적 모형의 카이제곱이 얼마나 증가하는지를 나타냄.
        • Wald test가 유의하면 필요한 parameter ! -> 제거하면 안됨.

Interpretability, Size and Statistical Significance of the Parameter Estimates

KK1

  • Solution을 해석하기 전에 parameter 추정치가 통계적으로, 실증적으로 맞는지 확인해야함.
    • 완전표준화된 factor loading이 0~1사이에 속해야함. (Factor loading이 음수 : 역코딩하지 않은 경우, Factor loading크기, 방향(+),(-)으로 준거타당도를 봄.)
    • 선행연구에서 제안하는 대로 요인 상관이 나왔는지 고려.
    • 통계적 유의성은 표준화된 점수로 판단함. -> 표준화된 parameter에서 parameter/standard error를 z점수로 고려할 수 있음 -> z검정으로 통계적 유의성 판단 가능함.(1.96보다 클 때 유의함.) 위 그림에서 Est/S.E. 모두 2를 초과하여 통계적으로 유의함.
  • 비표준화된 parameter추정치는 z검증 사용할 수 없음.
  • 비표준화 계수가 유의하다고 표준화 계수가 유의하지 않음. -> 표준화된 계수의 표준오차로 유의성 검증해야함.
  • parameter 추정치의 표준오차는 추정치의 크기가 적당한지, 지나치게 크거나 작지는 않은지 판단하는 정보임.
    • 표준오차 : parameter추정치에서 표집오차가 얼마나 발생하였는가를 나타냄. -> 즉, 모형 parameter 추정치가 실제 population parameter를 얼마나 잘 추정하였는가를 나타냄. -> 표준오차가 지나치게 크거나 적을 경우 parameter유의성 검정에 문제가 생김.
    • 표준오차 오류의 원인 :
      1. 모형이 misspecified 되는 경우.
      2. 표본의 크기가 작은 경우.
      3. 정상분포가 아닌 자료를 사용하는 경우.
      4. 추정치 혹은 행렬유형이 잘못되었을 경우.
    • 비정상적인 표준오차를 변별하는 가이드라인은 별도로 존재하지 않음.
  • 모형의 parameter 추정치가 통계적 유의수준에 미치지 못하는 경우
    • congeneric한 CFA solution에서 요인부하량이 유의하지 않은경우 : 관찰된 측정치가 잠재차원과 관련이 없다는 의미. (연구자가 중요하게 생각하는 indicator가 유의하지 않으면, 다른 indicator 10개가 유의해도 생각해봐야함.)
    • noncongeneric한 CFA solution에서 교차부향이 유의하지 않은 경우 : 이 parameter는 중요하지 않으므로 모형에서 제외될 수 있음. (제외하는 것이 좋을 수도 나쁠 수도 있음.)
    • 오차공분산이 유의하지 않은 경우(unique factor) : 이 parameter는 두 indicator의 관계를 설명하지 못함. (부정적 질문, 역문항 같은 경우에 ‘부정적’, ’역문항’이라는 공분산이 오차 공분산으로 묶일 수 있음.)
    • 요인분산이 0과 유의한 차이가 없는 경우 : solution에 심각한 문제가 있다는 의미. 요인과 상관 없는 변수를 marker로 사용했거나, input행렬이 정상분포를 따르지 않거나, 표본크기가 너무 작은 경우일 수 있음. (요인분산이 0에 가깝다->모든 사람의 neurot가 똑같다. 또는 neurot가 아닐 수 있음. 즉, 요인분산이 0이라면 요인에 의한 개인차는 없고 오차분산이 크고 요인분산이 매우 작은것.)
    • 요인 상관이 유의하지 않은 경우 : 독립된 요인을 발견한 것. CFA solution의 이론적 맥락에 기반하여 판단해야함.
    • 오차분산이 유의하지 않은 경우 : 요인이 indicator를 완벽하게 설명. 오차분산은 요인부하량과 부적상관.(요인에 의해 설명되는 분산이 클 수록, 오차분산이 작아짐.) solution에 다른 문제가 없을 때, 오차분산이 유의하지 않다는 것은 indicator들이 요인과 강한 상관을 갖는다는 뜻임.
  • 통계적 유의성, 방향성이 맞다고 parameter추정치를 받아들이는 결정을 해서는 안됨.
    1. CFA는 표본크기가 크기 때문에, 통계적으로 유의한 수치가 나오기 쉬움
    2. parameter 추정치의 크기가 실증적으로 의미가 있는지가 가장 중요함. (이론, 선행연구)
  • corss-loading indicator가 없는 CFA모형에서 완전표준화된 요인부하량은 indicator와 요인 간 상관으로 해석될 수 있고, 이를 제곱하면 요인에 의해 설명되는 indicator 분산의 비율이 됨. 즉, communality(공통분산)이 됨. (cross-loading이 없는 indicator의 경유 표준화된 FACTOR와 indicator사이 loading값은 상관값임. 회귀와 같다고 볼 수 있기 때문에 상관값으로 봄.)
  • 일반적으로 다요인 CFA solution에서 요인 간 교차상관이 크기는 잠재요인의 변별타당도로 해석됨.
    • 교차상관의 크기가 1.0에 가깝다면, 각 요인이 구분된 construct를 대표한다고 보기 어려움.
    • 응용연구에서 교차상관이 .80 또는 .85를 초과하면 변별타당도가 낮다고 봄.
    • 상관이 지나치게 높은 경우 두 요인을 하나로 묶어 단일요인 차원으로 respecify함. (수정된 모형의 적합도, 선행연구들을 함께 고려해야함.)

INTERPRETATION AND CALCULATION OF CFA MODEL PARAMETER ESTIMATES

  • 비표준화된 solution : 모든 parameter추정치는 indicator와 요인의 원본척도에 기반함.
  • 완전표준화된 solution : indicator와 잠재변수의 척도가 표준화됨.
  • 완전표준화된CFA solution은 비표준화된 solution으로 변환 가능하고, 그 역 또한 계산 가능함.
  • parameter추정치는 marker를 활용하는 방법말고, 요인분산을 1.0으로 고정하는 방법도 있음.
    • 추정방법을 marker에서 요인분산1.0으로 바꿔도 구해지는 CFA solution은 거의 변하지 않음.
    • but 비표준화된 요인부하량, 요인분산, 요인 공분산 추정치는 변화함.
    • 완전표준화를 주의해야 하는 경우에는 남.여 차이 분석이 있음. (남,여를 따로 분석할 때, 표준화하면 분산이 가진 정보가 사라짐.)

CFA MODELS WITH SINGLE INDICATORS

  • 단일 indicator분산을 분석에 포함시킬 수 있다는 점은 CFA의 또다른 장점임.
  • 단일 indicator로 구성된 변수는 요인으로 해석되면 안되지만, 단일 indicator를 CFA에 포함시키면 유용한 경우가 있음.
    • SEM(구조방정식모형)에서 구조모형이 단일 indicator와 잠재변수를 포함한다면, SEM시행 전 CFA에서 단일 indicator를 포함시켜야함.
    • CFA에 단일 indicator를 포함시키면, 구조모형을 적용하기 전 잠재변수와 단일 indicator 간 상관을 볼 수 있어서 구조모형의 viability를 높일 수 있음.
    • 구조모형이 단일 indicator를 포함하지 않는다면, 단일 indicator를 측정모형에 포함시켰을 때, specification error가 커질 수 있음.
  • 단일 indicator로는 측정오차(measurement error : 요인에 의해 설명되지 않는 indicator분산)를 추정할 수 없음.
    • 비표준화된 indicator error를 사전결정된 값(0으로 고정)으로 수정하면, indicator는 신뢰할 수 있다고 말할 수 있음(error theory).
    • 연령, 키 등 완벽하게 측정된다고 가정되는 경우에는 indicator error를 고정하는 것이 합리적임.
    • 비표준화된 오차를 0이 아닌 값으로 수정하여, 측정오차를 다차원적 indicator에 포함 시킬 수 있음.
    • 단일 indicator로는 측정오차(measurement error)를 추정할 수 없음. -> single indicator의 요인부하량을 구하기 오차분산을 지정하는데, 오차분산을 구할 때 신뢰도를 빌려옴. [var(x)(1-p)으로 요인부하량을 구함. var(x) : 단일 indicator의 표본분산, p : 신뢰도]
    • indicator 분산은 = FACTOR로 설명되는 분산 + FACTOR로 설명되지 않는 분산의 합. -> 공통분산 + 고유분산 = indicator 분산

Section 5 - Model Revision and Comparison


Goals of model respecification

  • 초기 CFA결과가 모델 수용 가능성을 평가하는데 사용되는 3가지 경우
    1. 모델이 전체적으로 맞지 않을 때
    2. 지표관계(indicator)를 잘 재현하지 못 했을 때
    3. 해석 가능한 매개 변수를 균일하게 산출하지 못했을 때

    -> 적합한 진단정보(fit diagnostic information), 실질적 타당성(substantive justification)을 기반으로 적합도를 높이기 위해서 데이터를 수정하고 다시 적용함.

  • 재적합(respecification)은 CFA모델의 간명성과 해석가능성을 높이기 위해서 사용하지만 goodness of fit은 감소될 수 있음.
    ex) 상관이 높은 2개의 factor를 하나의 factor로 놓고 다시 재적합하면, 간명하고 해석가능성은 높아지지만, 초기에 복잡한 모형보다 goodness of fit이 감소됨. (상관이 높은 2개의 factor는 변별력이 없는 2개의 factor임.)

  • 간명성을 향상시키기위해 사용하는 model respecification의 2가지 type : multiple-groups solutions, higher-oder factor models임. -> 초기 CFA가 데이터에 잘 맞는다는 것이 확인된 후에 실행됨.

  • multiple-groups solutions : parameter에 동일성 제약 조건(factor loading)을 적용하여, 집단간 비교를 가능하게 함. -> parameter가 모든 그룹에서 자유롭게 추정되는 baseline solution 보다 적합도가 좋지 않음. ex) 남*여에 따른 외향성, 신경성의 요인구조가 어떤지 비교하는 것.

  • higher-oder factor models : 요인간 상관관계를 보다 간결하게 고차원 구조로 재현함. -> higher-oder factor models의 parameter수는 최초 CFA모델에서 자유롭게 추정한 parameter수보다 적기 때문에 적합도를 향상시키지 못함.

higher

higher

  • self-leadership은 higher factor임.
  • higher factor를 구할 때, marker 또는 요인분산 1로 고정하는 방법을 사용함.
  • 간명성과 해석가능성을 모두 고려해야 할 때, 이론적 배경이 중요함.

Sources of Poor-fitting CFA solutions

  • CFA모델에서 misspecification의 주원인 : 요인수, indicators, error theory임.
    1. number of factors : 너무 적거나, 너무 많거나
    2. the indicators : indicator선택, indicator와 factor loading의 패턴
    3. error theory : uncorreleated measurement errors
  • misspecification된 CFA solution은 결과의 몇가지 측면으로 입증됨.
    1. 기준치 보다 낮은 overall goodness of fit indices(CFI, TLI < .95)
    2. 표준화된 잔차가 너무 크거나 modification indices가 너무 큼.
    3. 기대하지 못한 너무큰 parameter 추정지 또는 너무 작은 parameter 추정치, Heywood cases(추정치가 범위값을 벗어남)
      • 표준화된 잔차, modification indices는 solution의 변형의 원인을 결정하기에 유용하지만, misspecifiaction이 적을 때 도움이 됨.

Number of Factors

  • CFA는 강력한 개념적, 실증적 기반이 있음.
  • CFA model specification은 이전의 탐색적분석(EFA)을 통해 지지함.
  • indicators사이 관계가 오차상관(correlated errors)으로 더 잘 설명이 되면, CFA에서 적절한 요인수에 관해서 misleading information을 제공함. -> EFA는 오차상관을 고려하지 못하기 때문에, method effect에 의한 오차상관이 indicators의 관계를 더 잘 설명하면 요인수를 추가하라고 제안함.
    • method effect : items사이 differential covariance가 잠재변수가 아닌 측정방법 때문일 때, 존재함. -> 유사하거나 역문항으로 된 항목, 묵인 또는 사회적 바람직성 같은 출처의 문제. -> 물어보는 방식이 유사한것은 covariance가 생기고, 고유분산끼리 covariance가 됨. -> 오차상관을 고려하지 못하는 EFA에서는 요인이 늘어나면, 적합도가 늘어나기 때문에 오차를 설명하지 못하는 것을 요인을 추가하는 것으로 대체함.
  • 오차상관(correlated errors)이 없고, double-loading이 없는 congeneric indicators set 측정 모델에서 너무 적은 factor수를 가진 CFA solution은 indicator사이 관계를 적절하게 재현하지 못함.
  • 설명을 위해서 신경증, 외향성의 2요인 모델을 1요인으로 바꿔서 얻은 solution을 봄.
Table5.1

Table5.1

  • 표준화된 잔차는 Z score와 유사함. E1을 보면, 9.7596의 잔차 차이가 있는데, 거의 10SD멀어짐.
  • modification indices를 보면, E2를 free로 하면, 카이제곱이 95.0844감소한다는 것을 볼 수 있음.
  • 위 표를 보면, factor 1개에 indicators들이 모두 걸리니, E1 ~ E4 잔차 값도 증가, modification 값도 증가함. -> 즉, factor 1개로는 E1 ~ E4를 설명하기 부족함.
  • 잔차란, data의 분산 공분산 행렬 - model의 분산 공분산 행렬임. 잔차가 음수면, data분산 공분산 보다 model분산 공분산이 더 크니 과대추정임. -> 모형을 단순화해야함. / 잔차가 양수면, data분산 공분산이 model분산 공분산 보다 크니 과소추정임. -> 모형에 parameter를 추가해야함.
nested

nested

  • model이 nested되면, 카이제곱통계를 사용해서 적합도의 통계적비교를 할 수 있음.
  • two factor model이 유의하게 더 좋은 fit을 보여줌.
  • 요인수가 다른 CFA측정 모델을 비요하기 위해 강력한 개념적 근거가 필요함.
  • CFA모델에 너무 많은 요인이 specification된다면, 변별타당도가 약할 수 있음. -> 요인간 상관이 .85이상이면 변별타당도를 의심해볼 필요가 있음.
  • respecification의 목적은 모델의 overall fit을 향상시키는 것이 아니라, 이상적으로 더 간명한 solution의 fit이 initial model과 유사해지는 것임. (요인간 상관이 너무 높은 경우를 제외하고, initial model의 overall fit이 만족스럽다는 것을 가정함.)
  • nested model comparison방법은 요인수가 다른 CFA모델의 적합도를 통계적으로 비교하기 위한 방법으로 사용됨.
    • nested model은 parent model중 parameter가 몇개 줄어든 model임. -> parent model, nested model이 성립되어야 통계적 검증이 가능함.
      ex) 1. factor가 1개, indicator가 5개인 모델에서, 알고 있는 정보는 5*6/2=15개임. indicator분산 5개, covariances 10개. nested model은 측정오차를 고려하지 않은 1요인 모델임(요인분산을 1로 고정하고, 5개의 요인부하량, 5개의 indicator errors). -> 자유롭게 추정되는 10개의 parameter가 있음. -> 자유도는 15-10=5임.
      1. model p(parent model)은 model n과 동일하지만 indicator 4, 5의 오차상관을 고려한 모델로 추정해야할 parameter가 11개임. model p의 자유도는 15-11=4임.
        -> model p에서 오차상관 경로를 제외하면 model n이 형성되므로, model n은 model p에 nested됨.
  • nedsted 모델일 때, 카이제곱 통계를 solution의 적합도를 비교하는데 사용할 수 있음. -> 카이제곱 difference test 또는 the nested 카이제곱으로 사용됨.
  • 몇몇 학자들은 요인의 수가 다른 모델은 서로 nested되지 않는다고 주장
    • 2요인 모델을 만들기 위한 제약이 허용가능한 parameter경계에 있는 fixed parameter를 수반하는 1요인 모델과 제약이 동일함. -> fixed parameter를 수반하는 1요인 모델과, 2요인 모델의 제약이 동일하다.
    • borderline values(상관을 1로 제약, 분산을 0으로 제약하는 것)를 가지고 있는 nested model이 적절한 카이제곱 분포를 생성하지 못함. -> 카이제곱 differece test가 타협될 수 있음.
  • P : X^2 dfp / N : X^2 dfn, 간명할 수 록 카이제곱 값은 크고 설명력이 낮음. X^2 dfn - X^2 dfp, 두분포의 차이를 dfn - dfp의 분포에서 검증함.

Indicators and Factor loadings

  • indicators와 Factor간의 관계를 잘 못 지정하면, misspecification의 원인이 됨.
    1. indicator가 실제로는 2개 이상의 요인에 load되어야 하지만, 하나의 요인에만 부하되도록 specified될 때.
    2. indicator가 잘못된 factor에 specified될 때.
    3. indicaotr가 factor에 specified되었지만 사실은 factor와 관계가 없을 때. ex) 사실 몇개의 indicators가 하나 이상의 factor에 부하되어야할 때, congeneric indicator set의 specification에서 poor-fitting model이 결과로 나올 수 있음. -> 실제로 cross-loading이 있는데, congeneric을 지정하면 poor-fit이 됨.
  • 문제에 기반하여, 해결책은 indicator와 factor사이 관계의 패턴을 respcify하거나, model에서 indicator를 제거하는 것일 수 있음.
Figure5.1

Figure5.1

  • 좋은 model fit을 가지고 있는 factor analysis결과를 가지고 misspecification을 설명함.
  • figure5.1은 표준화된 잔차가 2.00아래, modification indices도 4.00아래임. 모든 parameter추정은 통계적으로 유의함.
table5.3

table5.3

  • x4 indicator가 factor 3개에 모두 걸리는 모델을 data에 적용함. (사실 x4는 social motives factor에만 load되는 것으로 기대됨.)
  • x4와 social motives는 0으로 고정되어, 자유도는 true model보다 1 높음. -> x4를 factor 3개에 부하한 모델은 true model에 nested됨. -> 결과는 table 5.3에 나타남.(table5.3은 x4가 social motives에 loading 되어야하는데 고려되지 않으면 어떤 문제가 생기는지 나타남.)
  • modification indices를 기반으로 specification을 찾는 것은 모델이 minor한 misspecification을 포함할 때, 성공할 가능성이 높음.
  • 모델 수용성은 전체 모델 적합성 지수(overall goodness of fit)에만 근거해서는 안됨.
  • x4와 social motives를 free로 추정했을 때의 modification index(16.16)와 EPC(0.9)는 실제 model의 카이제곱, parameter추정치의 변화와 일치하지 안음. -> modification index, EPC value는 고정된, 제약된 parameter가 free가 되었을 때 대략적인 model변화임.
  • 모형이 적합하지 않으면, parameter 추정치를 해석하면 안됨.
  • misspecification이 일어나는 다른 경우는 indicator가 잘못된 factor에 load될 때임.
  • figure5.1과 자유도가 같은 model은 서로 nested된 것이 아님. -> 카이제곱diff test를 할 수 없음. -> overall goodness of fit, focal areas of ill fit, interpretability/strength of parameter estimates를 고려하여 model solution을 비교함.
  • 연구자들은 카이제곱을 사용하여 non-nested model을 비교하는 방법을 만듬. -> AIC, BIC
  • AIC, BIC는 model fit, model complexity-parsimony를 고려함.
  • CFA solution의 결과가 문제가 생길 수 있는 가능성은 indicator가 factor와 관계가 없을 때, 나타날 수 있음. -> 이런 문제를 확인 할 수 있는 방법은 2가지가 있음.
    1. indicator가 유의하지 않거나 연관있는 factor와 indicator의 factor loading이 명확하지 않음.
    2. modification indices, EPC value에서 indicator를 다른 요인들에 load해도 model fit이 향상될 수 없다는 것을 제안함.
  • model fit을 위해서 적절하지 않은 indicator를 제거할 수 있지만, 근거를 찾아봐야함.

Correlated Errors

  • CFA solutino에서 misspecification은 indicator error variances사이 관계에서 발생할 수 있음.
  • 오차상관이 없다고 specified되면, 연구자는 indicators사이 모든 공분산은 주어진 factor에 load되며, 잠재적 차원 때문이라고 평가함. -> 모든 측정오차가 random.
  • indicators사이 오차상관은(correlated errors) 잠재변수들로 설명되지 않는 indicators의 공분산에 기반하여 specified 되고, 오차상관은 다른 외적으로 공통된 원인 때문임. -> 유사한 단어, 역문항(역이라는 공통점)등이 있음.
  • 불필요한 오차상관은 통계적, 임상적으로 유의하지 않는 것으로 알 수 있음. -> z값이 1.96보다 작거나, 오차의 공유된 분산이 사소하다는 것을 반영하는 매우 작은 parameter 추정치)
  • 불필요한 오차상관은 공분산을 0으로 고정한 후, model을 respecification하고 model fit의 유의한 감소가 없는지 확인함. -> 카이제곱 diff test가 사용될 수 있음.
  • 가장 공통된 어려움은 solution에 명백한 오차상관을 나타내는 것이 실패하는 것임. -> 누락된 parameter는 큰 표준화된 잔차, modification indices, EPC value로 나타남.

table5.5table5.5

  • 11, 12번 항목의 오차상관이 명시되지 않음. 전반적인 모형적합도는 좋지만, 표준화된 잔차(5.04)와 modification indices(25.94)는 11,12번 항목이 적절하게 재현된것이 아니라고 알려줌.
  • CFA는 대부분 모집단의 수가 크기 때문에 연구자들은 “borderline” modification indices를 경험 할 수 있음.
    • “borderline” modification indices : 오차상관이 model에 추가되면 model fit이 향상될 수 있다는 것을 제안함.
  • 오차상관은 실질적, 합리적이어야 하며 모형적합도를 위해서 적용해서는 안됨.
  • indicator의 오차상관을 free하기 위한 타당한 이유가 있는 경우, 이런 이유가 적용되는 모든 indicators쌍의 오차상관을 free로 해야함. ex) 역문항인 항목들이 method effect가 있다고 타당한 이유가 있다면, 모든 항목에 오차상관을 free로 해야함.

- modification indices는 카이제곱분포 -> N에 영향을 많이 받음 -> 차이가 없어도 N이 크면 차이도 큰것 처럼 나올 수 있음.

Improper solution and Non-positive Definite Matrices

  • 범위값을 벗어난 parameter 추정치가 하나, 하나 이상 solution에 포함된다면, measurement model은 수용될 수 없음.
    • 범위값을 벗어난 추정치 : heywood cases, offending estimates
  • CFA에서 가장 자주 일어나는 heywood cases는 부적 오차 분산임.
  • CFA가 congeneric indicator set(각 indicator가 하나의 factor에만 load되는것.)으로 구성되었다면, 표준화된 요인부하량이 1을 넘는 값을 가지는 문제가 생김.
  • 하나 이상의 factor에 걸리는 indicators가지는 CFA model에서 요인부하량은 회귀계수임.(indicator와 factor간의 상관이 아님.) -> 완벽히 표준화된 요인부하량은 데이터의 다중선형성을 나타낼 수 있지만 1.0을 넘어도 수용됨.
  • 적절한 CFA solution을 얻기 위한 필요한 조건 : input 분산-공분산 행렬, model 분산-공분산 행렬 모두 positive definite임.
  • positive definiteness는 분산공분산행렬을 PCA에 대입하는 것으로 평가 할 수 있음.
    • positive define : eigenvalue가 양수.
    • 행렬의 상관에 문제가 없음 -> eigenvalue가 양수인 positive definite / 행렬의 상관에 문제가 있음 -> eigenvalue가 0인 semi definite, eigenvalue가 음수인 negative definite
    • PCA는 input행렬의 변수의 수로 많은 eigenvalues를 생산함.
    • eigenvalue가 0보다 크면, 행렬은 indefinite임.
    • semidefinite는 적어도 하나의 eigenvalue는 0이고 음수인 eigenvalue는 없는 것임.
  • input 분산-공분산행렬의 non-positive definite의 원인
    • 샘플 데이터의 높은 다중 선형성 또는 선형 의존도
    • input행렬의 준비할 때, 생기는 오류 또는 분석을 위해서 data를 읽을 때 생기는 오류
    • 너무 많은 missing data는 nonpositive definite input 행렬을 만들 수 있음.
      • pairwise deletion은 definiteness 문제의 원인이 될 수 있음 -> sample data의 다른 subset에서 input행렬이 계산되기 때문임.
      • likewise deletion은 sample size를 줄이는 것으로 nonpositive definite 행렬을 생성할 수 있음.
  • improper solution의 원인
    1. misspecified
    2. 너무 적은 샘플 수
    3. 모형의 복잡성
  1. misspecified
  • 부적절한 solution을 만드는 가장 공통된 원인은 misspecified model임.
  • 구조적, 실증적으로 과소추정된 model(underidentified)은 수렴하지 못하거나 부적절한 solution을 만듬. -> misspecified되었다면, measurement model을 다시 만들기 위해서 EFA framework로 돌아감.
  1. 너무 적은 샘플 수
  • 너무 적은 샘플은 outliers의 영향을 받기 쉬움
  • outliers는 공선성, 비정규성의 원인이 될 수 있고 heywood case를 만들 수 있음.
  1. 모형의 복잡성
  • overparameterized model일 때, improper solution이 나타남.

  • starting value가 좋지 않으면 improper solution의 원인이 될 수 있음. -> 최근에 프로그램이 향상되면서 starting value 때문에 생기는 improper solution은 거의 없음.

figure5.2

figure5.2

  • model A
    • input행렬이 semidefinite(sample data의 선형의존성 때문)
    • 행렬은 positive definite가 아님. semidifinite인 이유는 eigenvalue 하나가 0임.
  • model B
    • indefinite input행렬 -> eigenvalue가 음수로 나오는 이유.
    • 상관행렬에서 오류가 있기 때문에 eigenvalue가 음수.
      • 상관행렬 조건 : 모든 eigenvalue가 양수.
      • 모든 eigenvalue가 양수 -> positive definite = 요인분석 가능.
  • model C
    • input행렬이 positive definite임. -> PCA에서 모든 eigenvalue가 양수임.
    • 2 factor measurement model은 misspecified임. -> sample data에 있는 관계 패턴을 지지하지 못함.
  • model D
    • 적절하게 specified된 model임.
    • 적절하게 specified되면, good fitting model과 합리적인 parameter추정치가 나옴.

Intermediate steps for further developing a measurement model for CFA

  • EFA에서 나타나지 않는 misfit의 잠재적인 요소들 때문에 CFA에서 poor-fit이 나타남.
  • EFA와 다르게 initial CFA에서 cross-loading, residual covariance는 0으로 고정됨.
  • CFA로 가기전에 측정구조를 더 풍부하게 탐색하기 위해서 2가지 분석절차가 고려됨.
    • E/CFA(EFA within CFA framework), ESEM(Exploratory SEM)
  • E/CFA와 ESEM모두 EFA와 CFA의 중간 단계를 나타내며, EFA에서는 제공하지 않는 중요한 정보들을 중간단계에서 제공함.

EFA in the CFA framework

  • E/CFA방법은 CFA를 EFA처럼 실행함. -> 요인분산통일. 요인 공분산을 자유추정, cross-loading을 0으로 고정, 각 요인에 anchor항목 지정(non-anchor는 다른 요인에서는 자유추정됨.).
  • ML EFA와 동일한 model fit을 생성하지만, cross-loadingd의 통계적 유의성, 오차공분산의 잠재성 같은 추가적인 정보를 제공함.
  • CFA보다 현실적이면서 모델확인을 위한 정보를 제공해줌.
E/CFA

E/CFA

  • E/CFA Mplus코드.
  • EFA를 실행 후, CFA로 넘어가기 전에 잠재구조를 탐색하기 위해서 E/CFA를 실행함.
  • 요인은 COPING, SOCIAL, ENHANCE 3개임.
  • COPING BY x1~x12* .5 x8@0 x12@0 = COPING요인에 x1~x12까지 12개의 indicator를 free로 추정함. x1이 COPING의 anchor x8,x12는 anchor라 0으로 고정. .5는 모형을 추정할 때 시작하는 값.
  • COPING~ENHANCE@1; = 요인분산을 1로 고정함.
table5.8

table5.8

  • CFA framework에서 실행된 분석, EFA와 df, overall fit이 동일함. -> EFA와 다르게 M.I.등 중요한 정보를 제공함.
  • 요인부하량의 통계적 유의성을 결정하기 위한 Z test를 제공하는데, Est/S.E.가 Z test임.
  • x4를 보면, x4는 COPING, SOCIAL에 cross loading이 있음. 요인부하량이 .4이상이며, 통계적으로 유의함. -> congeneric indicator set으로 CFA를 적용하면 안되는 이유임.
  • COPING에서 x8, x12가 0인 이유는 : x8은 SOCIAL, x12는 ENHANCE를 잘 반영하는 anchor라고 생각하기 때문에 0으로 고정함.
  • E/CFA에서는 factor 3개의 상관에 관한 정보를 제공함. SOCIAL WITH COPING, ENHANCE WITH COPING SOCIAL부분의 Est/S.E.부분을 보면 통계적으로 유의한 factor 3개의 상관을 볼 수 있음.
  • EFA에서는 오차상관, M.I같은 model fit을 진단할 수 있는 정보를 제공하지 않지만, E/CFA는 CFA framework에서 EFA를 실행하는 것이기 때문에 오차상관, M.I.등 model fit을 진단할 수 있는 정보를 제공함.
  • M.I.를 보면, x10 & x9와 x12 & x11은 높은 M.I.지수를 나타내고 오차상관이 있다고 볼 수 있음. -> 오차상관을 free로 하기 위해서는 이론적근거, 선행연구 같은 근거가 필요함. (M.I.는 카이제곱이 줄어드는 정도를 나타냄. M.I.를 사용하면 CFA가 아니라 탐색적분석이 됨. EPC는 실제로 free로 했을 때 값을 나타냄.)

Exploratory SEM

  • ESEM은 Mplus에서 가능한 새로운 방법임.
  • EFA와 CFA measurement model을 같은 solution에 통합함. -> 주어진 measurement model안에서 어떤 factor는 CFA의 편의를 따라 specified하고, 어떤 factor는 EFA를 따라 specified함.
  • ESEM은 ML CFA와 같은 정보를 제공함. (오차상관, M.I.등)
  • CFA에서 가능한 modeling들이 ESEM에서도 가능함. (잔차상관, 공분산에서 요인들의 회귀, 다중 집단 solution, 평균구조분석, 집단간 또는 시간에 따른 측정불변성검사)
  • ESEM은 요약된 데이터를 읽을 수 없음. -> 반드시raw data를 input으로 사용해야함.
table5.9

table5.9

  • ESEM mplus code임.
  • x1 ~ x12 (*1); = x1부터 x12까지 하나의 block으로 묶어 block안에서 EFA를 실행하라는 의미임.
  • 기본적으로 Mplus에서 ESEM은 요인분산을 1로 고정함.
  • Mplus에서 oblique geomin rotation이 default로 사용됨.
  • 잔차 분산은 free로 추정되고, 잔차 공분산은 추정하지 않는 것이 default이므로 연구자가 지정해야함.
  • E/CFA와 ESEM의 요인부하량, 요인상관값이 다른 이유는 ESEM에서 geomin 회전을 사용하기 때문임. -> EFA에서 rotation을 사용해서 발견하는 solution들 중에 fit이 동일한 solution이 E/CFA, ESEM이라고 생각해도 됨.
  • E/CFA와 다르게 ESEM에서는 모든 cross-loading값이 free로 추정됨.
  • CFA, E/CFA, ESEM의 요인상관은 조금씩 다르고 CFA의 요인상관 값이 가장 큼. -> CFA는 cross loading을 0으로 고정하기 때문에 요인상관 값에 더 많은 부하가 걸림.
  • 전통적인 CFA에서 cross-loading을 0으로 고정하는 것에 대한 비판이 있음.
    • measurement model의 어떤 type에는 비현실적일 수 있음. -> 유의미한 cross loading을 0으로 고정하는 것은 poor fit의 원인이 됨.
    • CFA는 cross loading을 0으로 고정하여, 요인간 상관의 크기를 과장할 수 있음.
  • CFA보다 간명성은 떨어질 수 있지만, 어떤 맥락에서는 ESEM이 CFA보다 적절할 수 있음.

Model Identification revisited

  • CFA model의 identification의 기본적인 원리
    1. 잠재변수에 대한 척도(metric)정의
    2. 자유도(df)가 양수
    3. 실증적, 경험적 과소추정에 관한 이슈
  • 더 복잡한 measurement model(double-loading indicators, correlated indicator errors을 포함한 model)에 관한 identificaiton임. -> 기본원리는 같지만 복잡한 모형 때문에 식별문제를 마주할 가능성이 높음.
  • 너무 많은 오차상관을 가지고 specification하면, underidentified model을 결과로 생성할 수 있음.
  • 오차공분산이 없는 2개 이상의 indicator가 solution에 포함되어야함.
  • double-loading indicator와 함께 specified된 모델은 underidentification되기 쉬움.
  • 실증적, 경험적 과소추정은 CFA MTMM분석에서 correlated methods에서 심각한 문제가 됨. (trait factor, methods factor에 각 indicator가 부하됨.)
  • 과소식별의 위험성은 double-loading indicator행렬, 오차상관을 가지고 있는 model에서 증가됨.
  • cross loading, residual correlation이 많으면 underidentification될 수 있으니 주의해야함.

Equivalent CFA solutions

  • equivalent = 매개모형에서 순서가 바뀌어도 fit은 동일. -> 통계적 지수로는 어떤 모형이 더 타당한지 알 수 없음.
  • equivalent solution은 model specification, evaluation에서 중요한 문제임.
  • equivalent solution은 서로 다른 model이 동일한 goodness of fit(df가 같음)을 제공할 때, 서로 다른 model이 주어진 data set에서 공분산행렬을 예측할 때 존재함.
model

model

  • model1, model2는 자유도가 1인 overidentified된 모델임.
  • A와C 사이 nontautological관계와 일치함.
  • 두 모델의 실질적 의미는 다르지만, 만들어내는 예측된 공분산행렬이 같음. -> A,C model-implied relationship은 .30임.
  • equivalent solution의 수는 model의 포화도와 연관있음.
  • 적은 자유도를 가지는 model이 더 간명한 model보다 더 많은 대안과, equivalent solution을 가짐.
Figure5.3

Figure5.3

  • Figure 5.3은 4개의 equivalent solution을 가지는 CFA solution임. -> 다양하게 그리는 것이 parameterized임.
  • 자유도가 8이고, 4개의 CFA solutions은 overidentified, fit이 좋음.
  • model A, B경우, CFA에서 연구자들이 자주 만나는 문제들임.
    • A : social anxiety가 다차원으로 구성되어있다는 개념적 생각을 specification함.
    • B : social anxiety를 넓은 단일구조로 평가하고, s5와 s6의 공분산은 오차상관을 나타냄.
  • model A,B는 동일한 fit을 제공하기 때문에 CFA절차를 통해서는 어떤 모델이 더 수용가능한지 알 수 없음.
  • 모델 적합도와 동등한 솔루션이 어떻게 indicator set의 구성요소에 의해서 영향을 받는지 보여줌.
  • indicators집합의 잠재차원은 매우 유사하거나, 반대되는 어휘를 가지는 indicator를 포함하거나 높게 겹치는 측정 같은 문제들에 의해서 크게영향을 받을 수 있음.
    • C : social anxity, public speaking aniety는 더 넓은 general social anxiety에 의해서 영향을 받음. general social anxiety에서 각 하위 요인으로 가는 부하량은 underidentified를 피하기 위해서 1로 고정함.
  • 방법론자들은 equivalent solution들은 쉽게 기각될 수 있음. -> model D가 예시임.
    • D : social interaction anxiety, public speaking anxiety에 s5,s6가 모두 부하됨. -> 2개의 factor는 서로 관련이 없는 것으로 가정됨.(요인 공분산이 0으로 고정됨.) -> 개념적 배경으로 빠르게 기각됨.
Figure5.4

Figure5.4

  • single factor를 수반하는 equivalent solution임.
  • D1=희망없음, D2=우울한기분, D3=죄책감, D4=일상생활에서 흥미없음
    • model A : 우울의 잠재차원이 4개의 indicator들에게 영향을 주기 때문에 상호연관있음.
    • model B : D1과 우울의 잠재변수는 D1으로 회귀됨.
  • model A,B는 적합도는 같아도 개념적으로 다름.
  • model A는 4개의 indicator중 어떤 것이라도 우울의 잠재변수에 직접적영향을 준다고 디자인하는 것으로 respecified할 수 있음.
  • model B,C는 covariates를 가지는 CFA의 예시임. -> covariates는 통제변수로 들어감.
  • 외생indicator를 가지는 model에서 factor는 외생indicator의 분산을 설명하려고 시도하기 때문에 내생적임. (model B의 D1이 외생 indicator.)
  • model B,C에서 우울의 잔차분산은 psi행렬에서 free로 추정됨. -> 잔차분산은 model B,C그림에서 E로 표현됨.
  • equivalent solution의 문제는 formative constructs를 포함하는 solution과 깊은 관계가 있음. -> 이런 모델들이 종종 대안적으로 MIMIC model로 parameterized될 수 있음.

Section 6 - CFA of Multitait-Multimethod Matrices


Correlated versus random measurement error revisited

  • 5장에서, 2개 이상의 indicator사이를 설명하는 공분산이 측정방법에 영향을 받는다고 믿어진다면, 오차상관을 특정화(specify)해야함.
  • CFA측정모델의 error theory는 random measurement error, correlated measurement error 또는 uniqueness를 수반함.
    • random measurement error : 설명할 수 없는 하나의 indicator의 분산과 설명할 수 없는 다른 indicator의 분산의 공분산이 없음
    • correlated marasurement error or uniqueness : 설명할 수 없는 하나의 indicator의 분산과 설명할 수 없는 다른 indicator의 분산의 공분산이 있음
  • 오차상관은 모형의 적합도 향상을 위해서 specify되면 안됨.
  • 많은 indicator로 정의되는 잠재변인을 포함하는 대부분의 model에서 measurement error는 freely estimated됨. (적용가능하다면, 오차상관까지)
  • 어떤 경우 이런 parameter에 제약을 가하거나(오차분산을 동일하게 제약), 추정치들을 미리 정해진 값으로 고정함(단일 indicator에 의해서 측정된 변수의 measurement error를 prespecifying함).

The multitrait-multimethod matrix

  • applied research의 공통된 한계는 construct의 차원성, 타당성을 단일측정척도를 가지고 횡단적으로 평가하는 것임.
  • ex) 조현병의 부정적 증상은 flat affect, alogia, social amotivation으로 구성됨.
    • 환자의 행동을 평가하기위한 multiple-item clinical observation rating system을 개발 -> 충분한 표본을 모은 후, 요인분석 -> 결과가 3요인으로 나오면, 가설을 지지한다고 해석 -> 3가지 잠재요인들이 다르게 intercorrelated되고 다른 factor에 부하됨 -> 3가지 잠재요인들이 다른 질병의 indicator보다 조현병에 더 강력하게 연관이 있는 것으로 타당성을 지지함.
    • 이런방법이 척도개발과 구성 타당도 검사에서 실행되는 일반적인 순서임.
  • 일반적인 순서는 구성타당도에 대해서 불완전한 평가를 제공함.
  • 부정적 증상 rating 척도의 다차원성이 indicator집합의 인공적인 원인 때문인지 확실하지 않음. -> indicator들의 상관이 높다는 것이 요인을 잘 설명하는 것이 아닐 수 있음. -> 표현이 유사하면, 요인과 상관이 없어도 indicator들 사이 상관이 인공적으로 높을 수 있음.
  • method effect는 construct의 변별타당도를 모호하게 할 수 있음. -> 각 construct가 같은 측정방법으로 평가되면, 요인간 상관이 방법효과 때문인지 특성 간 “true” 공분산 때문인지 구별할 수 없음. -> 같은 측정방법을 사용하면 같은 개념을 다른 측정방법으로 측정하는 것보다 상관이 높을 수 있음.
  • 단일 평가방법으로 구성타당도는 제한됨.
  • Campbell and Fiske(1959)는 심리학적 측정의 구성타당도를 확립하기 위한 방법으로 Multitrait-multimethod method(MTMM)을 개발함.
  • MTMM
    • 구성타당도를 평가하기 위해 arranged상관행렬을 수반함.
    • 구성타당도는 타당도의 포관적인 원칙으로, 심리적 측정이 측정하려는 개념을 실제로 측정하는 정도임.
    • 여러가지 traits이 여러가지 method에 의해서 평가되는 것이 필요함.
    • 결과는 T x M상관행렬로 수렴타당도, 변별타당도, 방법효과로 해석됨.
table6.1

table6.1

  • table6.1은 MTMM의 예시
  • DSM-5의 A군 성격장애의 구성타당도를 조사함.
  • A군은 3가지 성경장애 construct로 이루어짐. -> paranoid, schizoid, schizotypal
  • 500명의 환자표본에서 3가지 측정방법으로 측정됨. -> self-report inventory, dimensional ratings from a structured clinical interview, observational ratings made by paraprofessional staff.
  • table6.1은 T x M행렬로 3 x 3행렬임.
  • 하늘색 네모 부분 : inventroy를 사용했을 때 신뢰도 계수 추정치 -> 신뢰도 대각선은 행렬에서 가장 큰 계수를 포함해야함. -> MTMM행렬의 다른 indicator보다 indicator의 자기 상관이 가장 높아야함.
  • 빨간 밑줄 부분 : method effect -> 같은 방법을 사용하면 상관이 높고, 다른 방법을 사용하면 상관이 낮음.
  • 보라색 네모 부분 : 변별타당도 -> 서로 다른 개념을 다른 방법으로 측정하면 상관이 낮음. -> heteromethod영역에서 대각선이 아닌 부분의 값이 대각선 부분의 값보다 균일하게 낮음 -> 높은 변별타당도를 가짐.
  • 초록색 네모 부분 : 수렴타당도 -> PAR이라는 같은 개념을 다른 방법으로 측정하면 상관이 높음.
  • 검은 네모는 같은 방법을 사용한 블록 -> monomethod, 동일한 방법에 의해 평가된 indicator들 간의 상관관계.
  • 주황 네모는 다른 방법을 사용한 블록 -> heteromethod, 다른 방법에 의해 평가된 indicator들 간의 상관관계.

  • table6.1은 수렴타당도, 변별타당도가 높고 방법효과가 미미하다는 결과가 나타남. -> 높은 구성타당도를 가짐.

CFA approaches to analyzing the MTMM matrix

  • MTMM행렬이 구성타당도의 개념화와 평가에서 유의미한 발전을 보였지만, 설립초기부터 수년동안 광범위하게 사용되지 못함.
  • MTMM의 한계점
    1. 해석의 주관적 특징(어떤 상관패턴이 만족스러운 수렴타당도, 변별타당도인지 애매함.)
    2. 특성,방법factor에 관해서 추론하기 위해 실패할 수 있는 관찰된 측정들 사이 상관에 기반함.
    3. MTMM data의 의미있는 solution을 얻기 위한 EFA의 실패. (EFA는 오차상관을 specification할 수 없는 제약이 있음.)
  • MTMM행렬은 다른 상관, 공분산행렬과 마찬가지로 CFA로 분석할 수 있음. (trait, method factor같은 차원에 관하여 추론할 수 있음.)
  • 몇가지 종류의 CFA모델이 MTMM data에 적용될 수 있지만, 2가지 형태의 CFA모델이 가장 지배적임.
    • correlated methods model, correlated uniqueness model

Correlated methods models

  • MTMM data를 CFA로 확인하기 위해 필요한 5가지
    1. identified 되기 위해서는 적어도 3가지 trait, 3가지 method가 있어야함.
    2. T x M indicators는 T + M fcator를 정의하기 위해서 사용됨. (trait 요인 수 = T, method 요인 수 = M)
    3. 각 indicator는 2가지 요인(trait요인, method요인)에 load되도록 지정됨. (다른 cross loading은 0으로 고정)
    4. trait 요인들끼리, method 요인들끼리 상관은 자유롭게 추정되지만, trait과 method 사이 상관은 0으로 고정.
    5. indicator uniqueness(trait, method로 설명되지 않는 indicator의 분산)는 freely estimated 되지만, 다른 indicator의 uniqueness와는 상관 될 수 없음. -> 쉽게 이해하면 indicator 오차끼리 상관이 없음.
  • 최소 1번, 4번이 충족되어야 solution이 나옴.
figure6.1

figure6.1

  • figure6.1은 A군 성격장애 MTMM행렬의 correlated methods CFA specification path diagram임.
  • method factors와 trait factors의 상관은 0으로 고정함. -> method 효과 통제 후, trait factors상관과 trait loading값을 보고싶은 것임.
  • correlated method solutions의 중요하고 특별한 경우는 uncorrelated methods model임. -> uncorrelated methods model은 specification은 correlated methods와 동일하지만 method factor의 공분산이 0으로 고정된다는 점이 차이점임. -> method factor 사이 상관을 0으로 고정하는 이유는 모형이 복잡하면 solution을 얻기 힘들기 때문에 solution을 얻기 위해서 method factor의 상관을 0으로 고정함.
  • 연구자가 보고싶은 부분이 trait이기 때문에 제약은 method에 가함.
  • correlated method model, uncorrelated methods model은 nested되어 있기 때문에, 두 모델을 비교하면 다른 평가방법과 연관된 효과가 상관이 있는지 통계적으로 평가할 수 있음. -> correlated method effect의 부족은 nonsignificant 카이제곱 difference test로 나타남.

Correlated uniqueness models

figure6.2

figure6.2

  • correlated uniqueness CFA model이 MTMM data를 분석하기 위한 대안적 방법으로 소개됨.
  • figure6.2는 correlated uniqueness CFA specification path diagram임.
  • method factor를 uniqueness로 고려해서 model을 specify함.
  • method 간 상관을 0으로 제약함. -> 모형이 너무 복잡하면 method 내 상관parameter를 지워야 할 때도 있음.
  • indicator가 각 4개 씩이라면, indicator uniqueness 상관 parameter가 너무 많음. -> 추정해야할 parameter가 너무 많아서 uniqueness의 상관이 낮은걸 0으로 고정하기도 함.
  • oberver rating이어도 부모, 교사 평가는 다름. -> obserber rating이라도 방법이 2개일 수 있음. 그러나 method간 상관이 높음.
  • correlated uniqueness model이 식별되기 위해서는 최소한 2가지 trait(T)와 3가지 method(M)가 있어야함. (2가지 T X 2가지 M model은 같은 trait factor에 부하되는 indicator의 factor loading을 동일하게 제약하면 data에 fit가능함.)
  • correlated uniqueness model의 trait 부분의 specification은 correlated methods와 같음.
    1. 각 indicator는 하나의 trait factor에 load되도록 specified됨. (모든 cross-loading은 0으로 고정됨.)
    2. trait factors들 사이 상관은 freely estimated됨.
  • 가장 중요한 차이점은 method effect를 추정하는 방법에 있음.
  • correlated uniqueness model에서 method effect는 같은 평가 방법에 기반한 indicator들 사이 correlated uniqueness를 specifying하는 것으로 추정함.
  • correlated uniqueness의 강력한 장점은 부적합 solution이 생성되는 경우가 드물다는 것임.
table6.3

table6.3

  • correlated uniqueness model Mplus code임.
  • 빨간 밑줄 : 요인분산을 1로 고정함.
  • 파란 밑줄 : “3.84이상인 값만 결과에 나타내라” 라는 뜻임.
table6.4

table6.4

  • 빨간 네모 : 수렴타당도 -> 크고 통계적으로 유의한 trait factor loading은 높은 수렴타당도를 의미함.
  • 파란 네모 : 변별타당도 -> trait factor correlations의 값이 크면 약한 변별타당도를 의미함.
  • 초록 네모 : 방법효과 -> 방법효과가 있다면 correlated uniqueness가 중간이거나 그 이상이됨.

Advantage & disadvantage of correlated methods & correlated uniqueness models

  • correlated methods modeldms Campbell and Fiske’s(1959)의 MTMM행렬의 original 개념화와 일치함.
  • under this specification 각 indicator는 trait,method,unique variance의 함수로 고려할 수 있음. -> 완벽하게 표준화된 solution에서 trait factor loading의 제곱 + method factor loading의 제곱 + indicator의 uniqueness = 1임. -> 이런 추정치는 각 indicator에서 trait, method, unique variance의 비율로 해석될 수 있음.
  • correlated method solution이 제공하는 parameter추정치는 구성타당도와 관련하여 쉬운 해성을 제공함.
    1. trait factor loading이 크다면 높은 수렴타당도임.
    2. method factor loading이 작거나 유의하지 않으면, method effect가 없는것임.
    3. modest trait factor intercorrelations은 높은 변별타당도임.
  • method factor의 specification은 method effect의 실질적인 해석을 향상시킴. -> 주어진 model과 연관된 공분산은 단일 factor로 설명되고(figure6.1을 보면 1개의 method factor로 method에 관한 공분산이 설명됨.), method effect는 1차원으로 추정되기 때문임.
  • correlated methods방법은 어떤 method factor가 상호관련있는지(intercorrelated) 평가할 수 있음.
  • correlated methods model의 단점은 실증적으로 과소식별된다는 것임. -> correlated methods solution은 전형적으로 수렴하지 않음. -> 만약 수렴하더라도, heywood cases가 나타나고 표준오차가 큼.
  • 부적절한 solutino이 가장 발생할 가능성이 높은 경우
    1. MTMM 디자인이 너무 작을때.
    2. sample size가 작을때.
    3. 일차원 method effect가정이 충족되지 않을때.
  • correlated method model이 실증적으로 과소추정되는 2가지 특별한 경우
    1. trait 또는 method factor에 부하되는 loading이 같을때.
    2. 2개 이상의 factor사이 변별타당도가 없을때.
  • 실증적인 과소추정의 결과로 심각한 추정의 어려움이 있음.
  • 이런 문제들 때문에 많은 방법론자들이 MTMM data를 분석할 때, correlated uniqueness model을 추천함.
  • 어떤 방법론자들은 correlated methods model이 실패했을 때, correlated uniqueness model을 사용해야 한다고 주장함.
  • correlated methods model의 또 다른 단점이 있음. -> 다차원방법효과를 허용하지않음.
  • 모형의 일부 또는 전체 indicator에 영향을 주는 variability의 systematic sources가 2개이상 존재한다면, method effect는 multidimensional임. -> 1가지 방법을 사용했다고 해도, 1가지 방법에 의한것이 아닐 수도 있음.
  • correlated method model은 주어진 평가방법과 연관된 모든 공분산을 하나의 method factor로 설명하려고 시도함. -> method effect를 1차원으로 가정함. -> 연구자들은 이런 가정이 비현실적이라고 지적함.

  • correlated uniqueness mdoel은 모형추정 문제가 거의 없음.
  • 단일차원성과 다차원성의 방법효과를 모두 수용할 수 있음. -> 같은 평가 방법에 기반한 indicator들 사이의 상관을 자유롭게 추정하는 것으로 method에 관한 공분산을 재현하기 때문임.
  • correlated uniqueness를 방법효과로 해석하는 것은 항상쉬운 것이 아님. -> parameterization이 다차원 방법효과를 허락해도 solution이 효과 본질의 해석적인 정보를 제공하지 않음. -> 어떤 방법이 method variance가 가장 큰지 결정하기 어려움.
  • correlated uniqueness model의 또 다른 단점은 trait과 method간 상관, method끼리 상관을 0으로 가정한다는 것임. -> 만약 0으로 가정한 제약이 깨지면, trait의 분산과 trait factor간 공분산이 과대추정됨. -> 수렴타당도는 과장되고, 변별타당도는 낮아짐.
  • correlated uniqueness model을 사용해서 MTMM data를 분석할 때, 가능한 독립적인 방법을 사용하는것이 좋음.

Other CFA parameterizations of MTMM data

  • direct product model은 다른 CFA기반 방법들과 다르게 method factor와 trait factor의 상호작용 가능성을 mulitplicative한 방법으로 설명함. -> method effect는 강하게 연관된 trait의 상관을 증가시킴.
  • method을 위해 상관행렬을 추정함. -> 방법의 유사성을 평가하기 위해서 상관행렬이 검사될 수 있음.

  • correlared trait-correlated method minus one model이 있음. = CT-C(m-1)
  • method factor는 같은 방법으로 측정된 모든 변수들에게 공통되는 residual factor임.
  • 과소추정과 부적절한 solution 문제를 피할 수 있다는 장점이 있음.
  • trait에 따른 방법효과를 검증할 수 있음. -> 전체 trait에 대한 방법효과의 일반화가능성을 검증할 수 있게함.
  • method factor간 상관을 제공하고, method factor와 trait factor의 관계에 대한 정보를 제공함.
  • CT-C(m-1)의 단점은 모형의 비대칭성임.

Consequences of not modeling method variance and measurement error

  • CFA에서 1개의 factor, method effect가 없는 model을 specification하면 poor-fitting solution을 결과로 나타냄.
  • nonrandom measurement error 때문에 생기는 항목사이 추가된 공분산을 설명하기 위해서 오차상관이 필요함.
  • 위의 관점이 MTMM data CFA도 동일하게 적용됨.
  • method variance를 설명하는것을 실패하면 구성개념이 낮은 변별타당도를 가진다는 잘못된 결론을 내림. -> trait 사이 상관(factor 간 상관)은 CFA estimation process에 의해서 과장되기 쉽기 때문임. -> method effect를 고려하지 않고 specification하면, estimation process에서 factor correlations의 크기를 증가시키는 것으로 같은 평가방법을 공유하는 indicator들의 추가적인 공분산을 재현하려고 시도함.
  • multimethod research design과 분석방법이 중요함. -> 구성타당도에서 measurement error를 model하는 것이 중요함.

Cross Validation

cv1 - 선행연구, 이론적 배경으로 지지되는 모형의 형태
cv2 - EFA를 시행 후, cross loading 항목이 생기면, 과연 어떤 모형이 적합하고 타당한지 확인이 필요함. cv3 - cross loading 항목이 생기고 cross loading값이 다른 요인에 걸리는 것이 더 크다면, 가설에 의한 모형(cv1)과 EFA를 시행후 cross loading을 확인한 모형(cv2), 요인부하량을 보고 indicator의 위치를 조정한 모형(cv3)을 모두비교해서 가장 최적의 모형을 찾아야함.

E/CFA와 EFA의 차이점

  • E/CFA는 EFA에서는 불가능한 modification, error correlation을 고려할 수 있다는 장점 때문에 사용함.
  • E/CFA의 결과는 각 요인에 해당하는 앵커를 다른 요인에서는 0으로 고정한 제약을 가한 solution을 보여줌. (EFA의 요인회전과 비슷함)

Mplus

library(MplusAutomation) A<-readModels(target = “c:/Users/LG/Documents/Factor Analysis/tab4.1.out”, recursive = T) print(A)

Mplus start point

ANALYSIS : processors = 8; #####core 갯수지정, 처리하는 창 갯수.##### starts = 300 30; #####300개 중에서 30개가 수렴하면 거기서 시작.#####

Mplus 명령어 입력하는 법

mplus model

mplus model

  • F1 ~ F3은 factor, x1 ~ x9는 indicator, 오차분산 1 ~ 9임.
  • F1은 x5에 cross loadfing이 있고, factor간 상관이 허용되어있으며, x2, x6, x7은 marker indicator임. 오차분산 2, 6은 상관이 허용되어 있음.
mplus model code

mplus model code