1 Introduction

1.1 What Are Linear Mixed Models(LMMs)?

  • 결과변수는 연속형일 때, residual이 정규 분포를 따르나 특정한 분산 값을 갖거나 독립적이지 않을 때 활용하는 통계적 방법론임.
    1. clustered data (교실 안 학생, 랜덤 블록 실험 디자인, 산업 영역에서 원자재의 일회 분량)
    2. longitudinal or repeated-measures studies
  • linear mixted model은 파라미터와 공변량 독립변수 등이 선형으로 결합되어 있으며 효과는 fixed나 random임.
    • fixed effect 몸무게, 테스트의 기저선, 사회경제적 상태 등 연속형 값을 갖는 공변량 또는 성별이나 처치집단 같은 범주형 factor와 관련됨.
      fixed effect are unknown constant parameters associated with either continuous covariates or the levels of categorical factors in an LMM.
      fixed effect의 추정은 LMM에서 일반적으로 관심의 대상이되는데 왜냐면 이것이 공변량과 연속형 결과 변수의 관계를 시사하기 때문(indicate).
    • factor의 레벨을 표본 공간에서 뽑아낸 표본이라고 할 때 특정한 레벨은 관심의 영역이 아닐 수 있다.
      (e.g., 전체 학생 중에 표집한 특정 학급이나 학생은 관심의 주 대상이 아님). 이런 factor와 관련된 효과는 LMM에서 random effects와 관련 있음.
      fixed effect와 다르게 random effect는 LMM에서 constant parameter로 표현됨.
      일반적으로 random effect는 (관찰되지 않은) 랜덤 변수인데 일반적으로 정규 분포를 따른다고 가정한다.

1.1.1 Models with Random Effects for Clustered Data

  • Clustered data arise when observations are made on subjects within the same randomly selected group. (같은 학급 내 학생, 같은 병원 내 환자 등)
    이런 연구 설계는 cluster 내에서 nested 된 unit에 대한 분석을 수반하게 됨.
    만약 cluster가 cluster의 larger population에서 표집되었다고 고려된다면, 이 효과는 LMM에서 random effect로 모형화 된다.
    실험계획법에서 입장에서, randomized block design 같은 경우는 block이 처치 효과에 crossed 되어 있는데, 이 때 block의 효과는 LMM에서 random effect로 모형화 된다.
    block은 일반적으로 랜덤 효과로 간주됨.
    We could also think of blocks as clusters, with treatment as a within-cluster covariate.
    LMM은 individual-level covariates, cluster-level covariates 둘 다 포함할 수 있음과 동시에 각 cluster에 맞는 random effect를 조절(adjusting)할 수 있다.

1.1.2 Models for Longitudinal or Repeated-Measures Data

  • 같은 subject나 unit of analysis를 시간에 따라 multiple observation 하면 londigutinal data가 발생함.
    Repeated-measures data는 같은 unit을 반복 측정하거나 실험이나 관측의 조건이 달라지는 조건과 관련있다.
    같은 subject에 대해서 같은 variable을 측정해보면 correlated 되어 있을 가능성이 높다.
    (같은 변수를 같은 사람에게 시간에 따라 측정하면 비슷함).
    때문에 longidutinal 또는 repeated-measure data를 피팅할 때는 이 correlation을 교정하기 위해서 covariance 투입이 필요함.

  • 반복측정 ANOVA는 다변량 정규성(MVN)을 가정하며, 모든 파라미터의 공분산에 대해서 MVN을 따르거나 shpericity 가정을 필요로 함.
    LMM에서는 반복에 대하여 MVN 분포를 가정하긴 하지만, 사용자들에게 보다 간명한 공변량 구조를 활용하고, 효율적으로 MVN의 분산공분산 행렬을 추정할 수 있게 해줌.
    또한 구형성을 가정하는 것 보다 더 효율적임.
  • ANOVA와 비교해서 LMM의 장점.
    1. 결측치 활용 가능
    2. time-varying 공변량 투입 가능.
    3. 시간이 변화 함에 따라 사람에 따라 달리 나타나는 outcome의 trajectory에 대한 분석 가능해짐. growth curve model. 이는 일종의 random coefficient model임.

2 Linear Mixed Modesls: An Overview

2.1 Introduction

  • Linear Mixed Model(LMM)은 연속형 결과 변수와 다양한 형태의 예측 변수에 관하여 clustered,longitudinal, repeated-measures data에 활용하는 모수 통계이다.
    fixed-effect paratmters, random effects

2.1.1 Types and Structures of Data Sets

2.1.1.1 Clustered Data vs. Repeated-Measures and Longitudinal Data

  • clustered data: 독립변수는 각각의 subejct(the unit of analysis)에 대해서 한번씩 측정되었으며 unit은 cluster의 하위 그룹으로 묶이거나 nested됨.
  • repeated-measures data: 독립변수는 같은 unit에 대하여 한번 이상 측정된 데이터.
    repeated measures factor는 실험적 또는 관찰 조건이거나 시간이 될 수 있으며 whithin-subject factor라고도 불림.
    피험자의 탈락이 일반적으로는 분석에 영향을 주지 않음.
  • longitudinal data: 몇몇의 시점동안 unit의 독립변수가 측정되는 데이터.
    repeated-measures와 다르게 피험자가 탈락하면 분석에 종종 영향을 준다.
    • repeatedlongitudinal의 구별이 헷갈림.
      그런데 이들을 구별하는 것은 크게 중요하지 않고,
      중요한 것은 둘다 독립 변수가 각각의 unit에 대하여 한번 이상 측정된다는 것이며 반복 측정은 서로 상관이 있다는 것.
  • clustered longitudinal data: clustered 와 longitudinal의 속성이 결합된 데이터.
  • clustered, repeated-measures, longitudinal은 hierarchical data라 함. Table 2.1
index notation
index notation

2.1.1.2 Levels of Data

  • clustered, repeated, longitudinal 데이터는 multilevel data로 생각할 수도 있음.
    (crossed random factor는 주의 할 것)
    1. Level 1: observations at the most detailed level of the data.
      clustered data에서는 levle1은 units of anlaysis
      repeated 또는 longti- 에서는 같은 units of analysis에 대한 반복 측정치.
    2. Level 2: 위계의 다음 단계를 표현.
      clustered data에서는 cluster의 유닛을,
      repeated 와 longi-에서는 units of analysis를 말함.
    3. Level 3: 다음 단계의 위계이며 일반적으로 클러스터 종단 연구에서 클러스터의 단위를 말함. 또는
      clusters of Level 2 units (clusters of clusters) in three-level clustered data sets.
  • data의 level로 생각하는것은 일부 쉽게 해석할 수도 있음. 하지만 복잡한 경우도 있음.
Table 2.2
Table 2.2

2.2 Specification of LMMs

  • 일반적인 longitudinal two-level 에서는 t: time point
    i: used for subjects
  • clustered data에서는 i: level 1
    j: level 2
    k: level 3
  • 두 상황 모두 분석의 unit은 i

2.2.1 General Specification for an Individual Observation

  • covariate는 time-invariant 또는 time-varying

2.3 ### General Matrix Specification