A. Pendahuluan

Dalam analisis data modern, khususnya pada data yang memiliki struktur hierarkis atau berkelompok, seperti siswa dalam sekolah, pasien dalam rumah sakit, atau pengukuran berulang dalam individu, asumsi independensi antar observasi sering kali tidak terpenuhi. Dalam situasi ini, Linear Mixed Model (LMM) menjadi pendekatan yang relevan karena mampu memodelkan variasi pada lebih dari satu level melalui kombinasi fixed effects dan random effects.

Namun, tantangan utama dalam model campuran bukan hanya pada estimasi parameter tetap (fixed effects), melainkan pada estimasi variance components, yaitu parameter yang menggambarkan heterogenitas antar kelompok. Estimasi komponen varians ini sangat penting karena menentukan:

Metode Maximum Likelihood (ML) secara umum dapat digunakan untuk mengestimasi parameter dalam model campuran. Akan tetapi, ML diketahui memiliki kecenderungan mengunderestimate variance components, terutama pada ukuran sampel atau jumlah kelompok yang terbatas. Bias ini muncul karena ML mengestimasi parameter tetap dan parameter varians secara simultan tanpa mengoreksi kehilangan derajat bebas akibat estimasi fixed effects.

Untuk mengatasi permasalahan tersebut, dikembangkan metode Restricted Maximum Likelihood (REML). REML memaksimalkan likelihood yang telah dikonstruksi dari kombinasi linear data yang menghilangkan pengaruh parameter tetap, sehingga estimasi variance components menjadi lebih tidak bias. Secara konseptual, REML dapat dipahami sebagai bentuk maksimum likelihood yang telah dikoreksi terhadap efek estimasi parameter tetap.

Urgensi penggunaan REML semakin efektif dalam konteks:

Dengan demikian, REML bukan sekadar alternatif teknis dari ML, melainkan pendekatan yang secara metodologis lebih tepat ketika tujuan utama analisis adalah memperoleh estimasi variance component yang stabil dan tidak bias. Dalam praktik multilevel modeling modern, REML sering direkomendasikan sebagai metode estimasi utama ketika fokus analisis berada pada struktur variasi dalam data.

B. Restricted Maximum Likelihood (REML)

REML digunakan dalam kerangka (LMM).

Model umum:

\[\begin{equation} \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\mathbf{u} + \boldsymbol{\varepsilon} \end{equation}\]

dengan:

Sehingga:

\[\begin{equation} \mathbf{y} \sim \mathcal{N}(\mathbf{X}\boldsymbol{\beta}, \mathbf{V}) \end{equation}\]

dengan:

\[\begin{equation} \mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}^T + \mathbf{R} \end{equation}\]

Likelihood penuh (ML):

\[\begin{equation} L(\boldsymbol{\beta}, \boldsymbol{\theta}) = (2\pi)^{-n/2} |\mathbf{V}|^{-1/2} \exp\left( -\frac{1}{2} (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})^T \mathbf{V}^{-1} (\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) \right) \end{equation}\]

Masalahnya:

REML bertujuan mengestimasi parameter varians \(\boldsymbol{\theta}\) tanpa dipengaruhi oleh estimasi \(\boldsymbol{\beta}\).

Caranya:

Mengkontruksi likelihood dari kombinasi linear data yang menghilangkan fixed effect.

Misalkan ada matriks \(\mathbf{L}\) sehingga:

\[\begin{equation} \mathbf{L}^T \mathbf{X} = 0 \end{equation}\]

Maka:

\[\begin{equation} \mathbf{L}^T \mathbf{y} \end{equation}\]

tidak lagi mengandung \(\boldsymbol{\beta}\).

REML memaksimalkan likelihood dari transformasi ini.

Fungsi Likelihood REML

Restricted likelihood dapat dituliskan sebagai:

\[\begin{equation} L_R(\boldsymbol{\theta}) \propto |\mathbf{V}|^{-1/2} |\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X}|^{-1/2} \exp\left( -\frac{1}{2} \mathbf{y}^T \mathbf{P} \mathbf{y} \right) \end{equation}\]

dengan:

\[\begin{equation} \mathbf{P} = \mathbf{V}^{-1} - \mathbf{V}^{-1} \mathbf{X} (\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{V}^{-1} \end{equation}\]

Perhatikan adanya faktor tambahan:

\[\begin{equation} |\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X}|^{-1/2} \end{equation}\]

Inilah koreksi derajat bebas yang tidak ada pada ML.

Log-Restricted Likelihood

Bentuk log-likelihood REML:

\[\begin{equation} \ell_R(\boldsymbol{\theta}) = -\frac{1}{2} \left[ \log|\mathbf{V}| + \log|\mathbf{X}^T \mathbf{V}^{-1}\mathbf{X}| + \mathbf{y}^T \mathbf{P}\mathbf{y} + (n-p)\log(2\pi) \right] \end{equation}\]

dengan:

\(n\) = jumlah observasi

\(p\) = jumlah fixed effect

Algoritma Estimasi REML

Karena solusi tertutup umumnya tidak tersedia, REML diestimasi secara numerik.

Langkah umum algoritma:

Langkah 1: Inisialisasi

Tentukan nilai awal parameter varians:

\[\begin{equation} \boldsymbol{\theta}^{(0)} \end{equation}\]

Langkah 2: Hitung Matriks Varians

\[\begin{equation} \mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}^T + \mathbf{R} \end{equation}\]

Langkah 3: Hitung Estimator GLS untuk $\boldsymbol{\beta}$

\[\begin{equation} \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{V}^{-1} \mathbf{y} \end{equation}\]

Langkah 4: Evaluasi Log-Restricted Likelihood

Hitung:

\[\begin{equation} \ell_R(\boldsymbol{\theta}) \end{equation}\]

Langkah 5: Update Parameter Varians

Gunakan metode optimisasi numerik, seperti Algoritma AI-REML pada Library(lme4) dan Update parameter:

\[\begin{equation} \boldsymbol{\theta}^{(t+1)} = \boldsymbol{\theta}^{(t)} + \mathbf{I}^{-1} \mathbf{s} \end{equation}\]

dengan:

\(\mathbf{s}\) = score function

\(\mathbf{I}\) = average information matrix

REML adalah: Estimasi maximum likelihood yang dibatasi pada subruang ortogonal terhadap fixed effects.

Secara praktis:

  • Digunakan untuk estimasi variance component

  • Lebih stabil pada sampel kecil

  • Direkomendasikan untuk model multilevel

C. Simulasi

Dataset jsp (Junior School Project) yang tersedia pada paket faraway merupakan data pendidikan yang dikumpulkan dari sekolah dasar di Inner London. Dataset ini berbentuk data frame dengan 3236 observasi dan 9 variabel. Artinya:

Struktur data bersifat karena siswa berada dalam sekolah tertentu, sehingga:

Artinya, banyak siswa berada dalam satu sekolah, dan siswa dalam sekolah yang sama berpotensi memiliki karakteristik yang lebih mirip dibandingkan siswa dari sekolah yang berbeda. Struktur ini menyebabkan asumsi independensi observasi dalam regresi linear biasa tidak sepenuhnya terpenuhi.

Variabel yang umum digunakan dalam analisis meliputi:

Jika dinotasikan dengan: \[ i = \text{siswa}, \qquad j = \text{sekolah}, \] maka respon dapat ditulis sebagai: \[ Y_{ij} = \text{skor math siswa ke-}i \text{ di sekolah ke-}j. \]

Pemodelan dengan Linier Mixed Model

Karena terdapat dua sumber variasi (antar sekolah dan antar siswa), model yang sesuai adalah model intersep acak (random intercept model):

\[\begin{equation} math_{ij} = \beta_0 + \beta_1 english_{ij} + u_j + \varepsilon_{ij} \end{equation}\]

dengan asumsi: \[ u_j \sim N(0,\sigma_u^2), \qquad \varepsilon_{ij} \sim N(0,\sigma^2). \]

Komponen variasi dalam model ini adalah:

  • \(\sigma_u^2\) : variasi antar sekolah,

  • \(\sigma^2\) : variasi antar siswa dalam sekolah.

Penggunaan Restricted Maximum Likelihood (REML) pada data didasarkan pada beberapa pertimbangan metodologis berikut:

  • Adanya variance component.
    Model mengandung parameter varians (\(\sigma_u^2\) dan \(\sigma^2\)), yang merupakan fokus utama estimasi REML.

  • Struktur hierarkis yang jelas.
    Karena siswa terkelompok dalam sekolah, terdapat korelasi intra-sekolah yang perlu dimodelkan secara eksplisit.

  • Estimasi ICC bergantung pada varians sekolah.
    Intraclass Correlation Coefficient (ICC) didefinisikan sebagai: \[ ICC = \frac{\sigma_u^2}{\sigma_u^2 + \sigma^2}, \] sehingga estimasi \(\sigma_u^2\) yang akurat sangat penting.

  • Potensi bias Maximum Likelihood (ML).
    ML cenderung meng-underestimate variance component pada ukuran sampel atau jumlah cluster yang terbatas karena tidak mengoreksi kehilangan derajat bebas akibat estimasi parameter tetap.

  • Fokus pada heterogenitas antar sekolah.
    Dalam konteks pendidikan, pertanyaan penting adalah seberapa besar perbedaan performa antar sekolah. Oleh karena itu, estimasi varians antar sekolah yang stabil menjadi prioritas. \end{enumerate}

Dengan demikian, struktur data yang bersifat hierarkis serta adanya komponen varians antar sekolah menjadikan REML sebagai metode estimasi yang secara metodologis lebih tepat dibandingkan ML ketika fokus analisis berada pada estimasi variance component dan pengukuran heterogenitas antar kelompok.

#Load Library
library(faraway)
library(lme4)
library(lmerTest)
library(dplyr)
#Load Data
data(jsp)
glimpse(jsp)
## Rows: 3,236
## Columns: 9
## $ school  <fct> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
## $ class   <fct> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,…
## $ gender  <fct> girl, girl, girl, boy, boy, boy, boy, boy, boy, boy, boy, girl…
## $ social  <fct> 9, 9, 9, 2, 2, 2, 2, 2, 9, 9, 9, 9, 9, 4, 4, 4, 9, 9, 9, 9, 9,…
## $ raven   <dbl> 23, 23, 23, 15, 15, 22, 22, 22, 14, 14, 14, 19, 19, 16, 16, 16…
## $ id      <fct> 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8,…
## $ english <dbl> 72, 80, 39, 7, 17, 88, 89, 83, 12, 25, 12, 67, 78, 52, 76, 19,…
## $ math    <dbl> 23, 24, 23, 14, 11, 36, 32, 39, 24, 26, 32, 22, 23, 19, 23, 11…
## $ year    <dbl> 0, 1, 2, 0, 1, 0, 1, 2, 0, 1, 2, 0, 1, 0, 1, 2, 0, 1, 2, 0, 1,…
summary(jsp)
##      school     class     gender         social         raven      
##  48     : 206   1:1949   boy :1551   4      :1225   Min.   : 4.00  
##  33     : 131   2: 987   girl:1685   9      : 484   1st Qu.:21.00  
##  42     : 131   3: 169               2      : 424   Median :25.00  
##  31     : 107   4: 131               5      : 288   Mean   :25.13  
##  47     : 102                        3      : 270   3rd Qu.:29.00  
##  50     : 101                        6      : 221   Max.   :36.00  
##  (Other):2458                        (Other): 324                  
##        id          english           math            year       
##  1      :   3   Min.   : 0.00   Min.   : 1.00   Min.   :0.0000  
##  3      :   3   1st Qu.:31.00   1st Qu.:22.00   1st Qu.:0.0000  
##  4      :   3   Median :54.00   Median :28.00   Median :1.0000  
##  6      :   3   Mean   :52.49   Mean   :26.66   Mean   :0.9379  
##  7      :   3   3rd Qu.:75.00   3rd Qu.:33.00   3rd Qu.:2.0000  
##  8      :   3   Max.   :98.00   Max.   :40.00   Max.   :2.0000  
##  (Other):3218

####Pemodelan Dengan REML

#Fit Model REML
model_reml <- lmer(math ~ english + (1 | school),
                   data = jsp,
                   REML = TRUE)
summary(model_reml)
## Linear mixed model fit by REML. t-tests use Satterthwaite's method [
## lmerModLmerTest]
## Formula: math ~ english + (1 | school)
##    Data: jsp
## 
## REML criterion at convergence: 21437.7
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -4.0352 -0.6743  0.0813  0.7416  2.4819 
## 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  school   (Intercept)  1.478   1.216   
##  Residual             43.263   6.577   
## Number of obs: 3236, groups:  school, 49
## 
## Fixed effects:
##              Estimate Std. Error        df t value Pr(>|t|)    
## (Intercept) 1.904e+01  3.311e-01 2.451e+02   57.50   <2e-16 ***
## english     1.443e-01  4.863e-03 3.144e+03   29.68   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##         (Intr)
## english -0.764
#Ekstrak Variance Component
vc_reml <- as.data.frame(VarCorr(model_reml))
sigma_u2_reml <- vc_reml$vcov[1]
sigma_e2_reml <- vc_reml$vcov[2]
vc_reml
##        grp        var1 var2     vcov    sdcor
## 1   school (Intercept) <NA>  1.47761 1.215570
## 2 Residual        <NA> <NA> 43.26305 6.577465
#Hitung ICC REML
ICC_reml <- sigma_u2_reml / (sigma_u2_reml + sigma_e2_reml)
ICC_reml
## [1] 0.03302612

####Pemodelan Dengan ML

#Fit Model ML
model_ml <- lmer(math ~ english + (1 | school),
                 data = jsp,
                 REML = FALSE)
summary(model_ml)
## Linear mixed model fit by maximum likelihood . t-tests use Satterthwaite's
##   method [lmerModLmerTest]
## Formula: math ~ english + (1 | school)
##    Data: jsp
## 
##       AIC       BIC    logLik -2*log(L)  df.resid 
##   21435.7   21460.0  -10713.8   21427.7      3232 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -4.0355 -0.6739  0.0820  0.7420  2.4823 
## 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  school   (Intercept)  1.431   1.196   
##  Residual             43.250   6.576   
## Number of obs: 3236, groups:  school, 49
## 
## Fixed effects:
##              Estimate Std. Error        df t value Pr(>|t|)    
## (Intercept) 1.904e+01  3.296e-01 2.551e+02   57.77   <2e-16 ***
## english     1.444e-01  4.861e-03 3.144e+03   29.70   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##         (Intr)
## english -0.768
#Ekstrak Variance Component ML
vc_ml <- as.data.frame(VarCorr(model_ml))
sigma_u2_ml <- vc_ml$vcov[1]
sigma_e2_ml <- vc_ml$vcov[2]
vc_ml
##        grp        var1 var2      vcov    sdcor
## 1   school (Intercept) <NA>  1.430525 1.196046
## 2 Residual        <NA> <NA> 43.249980 6.576472
#Hitung ICC ML
ICC_ml <- sigma_u2_ml / (sigma_u2_ml + sigma_e2_ml)
ICC_ml
## [1] 0.03201677
#Buat Tabel Perbandingan
comparison_table <- data.frame(
  Method = c("REML", "ML"),
  Var_School = c(sigma_u2_reml, sigma_u2_ml),
  Var_Residual = c(sigma_e2_reml, sigma_e2_ml),
  ICC = c(ICC_reml, ICC_ml)
)

comparison_table
##   Method Var_School Var_Residual        ICC
## 1   REML   1.477610     43.26305 0.03302612
## 2     ML   1.430525     43.24998 0.03201677

Interpretasi Output Model REML dan ML

1. Spesifikasi Model

Model yang diestimasi adalah:

\[ math_{ij} = \beta_0 + \beta_1 english_{ij} + u_j + \varepsilon_{ij} \]

dengan asumsi:

\[ u_j \sim \mathcal{N}(0,\sigma_u^2) \]

\[ \varepsilon_{ij} \sim \mathcal{N}(0,\sigma^2) \]

Jumlah observasi sebanyak 3236 siswa yang berasal dari 49 sekolah.


2. Hasil Estimasi Menggunakan REML
Random Effects
Komponen Variance Std.Dev
School (Intercept) 1.478 1.216
Residual 43.263 6.577

Interpretasi:

  • Variasi rata-rata skor matematika antar sekolah sebesar 1.478.
  • Standar deviasi antar sekolah sebesar 1.216.
  • Variasi antar siswa dalam sekolah jauh lebih besar yaitu 43.263.
  • Variasi terbesar terjadi pada level siswa.

Intraclass Correlation Coefficient (ICC)

\[ ICC = \frac{\sigma_u^2}{\sigma_u^2 + \sigma^2} = \frac{1.478}{1.478 + 43.263} = 0.0330 \]

Artinya sekitar 3.3% variasi skor matematika disebabkan oleh perbedaan antar sekolah, sedangkan sisanya berasal dari variasi antar siswa dalam sekolah.

Efek sekolah relatif kecil.


Fixed Effects
Parameter Estimate t-value p-value
Intercept 19.04 57.50 < 2e-16
English 0.1443 29.68 < 2e-16

Interpretasi:

  • Intercept sebesar 19.04 menunjukkan rata-rata skor matematika ketika skor bahasa Inggris bernilai nol.
  • Koefisien English sebesar 0.1443 menunjukkan bahwa setiap kenaikan satu poin skor bahasa Inggris meningkatkan skor matematika sebesar 0.144 poin.
  • Hubungan tersebut sangat signifikan secara statistik.

3. Hasil Estimasi Menggunakan ML
Random Effects
Komponen Variance
School (Intercept) 1.431
Residual 43.250

ICC (ML):

\[ ICC = 0.0320 \]


4. Perbandingan REML dan ML
Method Var_School Var_Residual ICC
REML 1.477610 43.26305 0.03303
ML 1.430525 43.24998 0.03202

Interpretasi:

  • ML sedikit meng-underestimate variance antar sekolah dibanding REML.
  • Perbedaannya sangat kecil karena ukuran sampel besar.
  • Estimasi fixed effect hampir identik antara ML dan REML.
  • Pada sampel besar seperti ini, ML ≈ REML.

5. Interpretasi Keseluruhan
  • Skor bahasa Inggris berpengaruh positif dan signifikan terhadap skor matematika.
  • Variasi terbesar terjadi pada level siswa, bukan antar sekolah.
  • Nilai ICC sekitar 3% menunjukkan heterogenitas antar sekolah relatif kecil.
  • Perbedaan antara ML dan REML sangat kecil pada sampel besar ini.
  • REML menghasilkan estimasi variance component sedikit lebih besar, sesuai dengan sifat teoritisnya yang mengurangi bias.

Kesimpulan

Pada dataset dengan ukuran besar seperti ini, metode REML dan ML memberikan hasil yang hampir identik. Namun secara metodologis, REML tetap lebih direkomendasikan untuk estimasi komponen varians, terutama pada sampel atau jumlah cluster yang lebih kecil.

Simulasi dengan Subset Kecil (10 Sekolah)

set.seed(123)

# Ambil 10 sekolah secara acak
small_jsp <- subset(jsp, school %in% sample(unique(jsp$school), 10))

# Fit model
model_ml_small   <- lmer(math ~ english + (1|school),
                         data = small_jsp, REML = FALSE)
summary(model_ml_small) 
## Linear mixed model fit by maximum likelihood . t-tests use Satterthwaite's
##   method [lmerModLmerTest]
## Formula: math ~ english + (1 | school)
##    Data: small_jsp
## 
##       AIC       BIC    logLik -2*log(L)  df.resid 
##    5273.3    5292.0   -2632.7    5265.3       784 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -3.2264 -0.6878  0.1578  0.7766  2.0644 
## 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  school   (Intercept)  0.3981  0.631   
##  Residual             46.4266  6.814   
## Number of obs: 788, groups:  school, 10
## 
## Fixed effects:
##             Estimate Std. Error       df t value Pr(>|t|)    
## (Intercept)  19.6158     0.6461  55.9798   30.36   <2e-16 ***
## english       0.1442     0.0103 559.0562   14.00   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##         (Intr)
## english -0.860
model_reml_small <- lmer(math ~ english + (1|school),
                         data = small_jsp, REML = TRUE)
summary(model_reml_small)
## Linear mixed model fit by REML. t-tests use Satterthwaite's method [
## lmerModLmerTest]
## Formula: math ~ english + (1 | school)
##    Data: small_jsp
## 
## REML criterion at convergence: 5272.9
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -3.2403 -0.6919  0.1585  0.7834  2.0674 
## 
## Random effects:
##  Groups   Name        Variance Std.Dev.
##  school   (Intercept)  0.5841  0.7643  
##  Residual             46.4580  6.8160  
## Number of obs: 788, groups:  school, 10
## 
## Fixed effects:
##              Estimate Std. Error        df t value Pr(>|t|)    
## (Intercept)  19.61204    0.66552  50.26512   29.47   <2e-16 ***
## english       0.14400    0.01036 610.45210   13.90   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##         (Intr)
## english -0.841
# Bandingkan variance
as.data.frame(VarCorr(model_ml_small))
##        grp        var1 var2       vcov     sdcor
## 1   school (Intercept) <NA>  0.3981012 0.6309526
## 2 Residual        <NA> <NA> 46.4266482 6.8137103
as.data.frame(VarCorr(model_reml_small))
##        grp        var1 var2       vcov     sdcor
## 1   school (Intercept) <NA>  0.5841151 0.7642742
## 2 Residual        <NA> <NA> 46.4580099 6.8160113
# Bandingkan ICC
vc_ml_small <- as.data.frame(VarCorr(model_ml_small))
vc_reml_small <- as.data.frame(VarCorr(model_reml_small))
sigma_u2_ml_small <- vc_ml_small$vcov[1]
sigma_e2_ml_small <- vc_ml_small$vcov[2]
ICC_ml_small <- sigma_u2_ml_small / (sigma_u2_ml_small + sigma_e2_ml_small)
sigma_u2_reml_small <- vc_reml_small$vcov[1]
sigma_e2_reml_small <- vc_reml_small$vcov[2]
ICC_reml_small <- sigma_u2_reml_small / (sigma_u2_reml_small
+ sigma_e2_reml_small)
# Tampilkan hasil perbandingan untuk subset kecil
comparison_small <- data.frame(
  Method = c("REML (Small)", "ML (Small)"),
  Var_School = c(sigma_u2_reml_small, sigma_u2_ml_small
),
  Var_Residual = c(sigma_e2_reml_small, sigma_e2_ml_small
),
  ICC = c(ICC_reml_small, ICC_ml_small)
)
comparison_small
##         Method Var_School Var_Residual        ICC
## 1 REML (Small)  0.5841151     46.45801 0.01241685
## 2   ML (Small)  0.3981012     46.42665 0.00850194
Interpretasi Model REML dan ML (Small Sample)
1. Spesifikasi Model

Model yang diestimasi:

\[ math_{ij} = \beta_0 + \beta_1 english_{ij} + u_j + \varepsilon_{ij} \]

dengan:

\[ u_j \sim \mathcal{N}(0,\sigma_u^2) \]

\[ \varepsilon_{ij} \sim \mathcal{N}(0,\sigma^2) \]

Jumlah observasi: 788 siswa
Jumlah sekolah: 10 sekolah


2. Hasil Estimasi REML (Small Sample)
Random Effects
Komponen Variance Std.Dev
School (Intercept) 0.5841 0.7643
Residual 46.4580 6.8160
Interpretasi
  • Variasi rata-rata skor matematika antar sekolah sebesar 0.5841.
  • Variasi antar siswa dalam sekolah sebesar 46.4580.
  • Variasi antar siswa jauh lebih besar dibanding variasi antar sekolah.
  • Namun, dibandingkan ML, REML menghasilkan varians antar sekolah yang lebih besar.

Intraclass Correlation Coefficient (ICC)

\[ ICC = \frac{0.5841}{0.5841 + 46.4580} = 0.0124 \]

Artinya sekitar 1.24% variasi skor matematika disebabkan oleh perbedaan antar sekolah.

Efek sekolah relatif kecil.


Fixed Effects
Parameter Estimate Std.Error t-value p-value
Intercept 19.6120 0.6655 29.47 < 2e-16
English 0.1440 0.01036 13.90 < 2e-16
Interpretasi
  • Intercept sebesar 19.61 menunjukkan rata-rata skor matematika saat skor English = 0.
  • Setiap kenaikan 1 poin English meningkatkan skor Math sebesar 0.144 poin.
  • Hubungan sangat signifikan secara statistik.

3. Hasil Estimasi ML (Small Sample)
Random Effects
Komponen Variance
School (Intercept) 0.3981
Residual 46.4266
ICC (ML)

\[ ICC = 0.0085 \]


4. Perbandingan REML dan ML (Small Sample)
Method Var_School Var_Residual ICC
REML (Small) 0.5841 46.4580 0.0124
ML (Small) 0.3981 46.4266 0.0085

5. Interpretasi Perbandingan
  • ML mengunderestimate variance antar sekolah dibanding REML.
  • Selisih Var_School cukup besar secara relatif (~30% lebih kecil pada ML).
  • ICC ML (0.85%) lebih kecil dibanding ICC REML (1.24%).
  • Varians residual hampir sama pada kedua metode.
  • Estimasi fixed effect hampir identik.

6. Implikasi Metodologis

Pada small sample:

  • Bias ML pada variance component menjadi lebih terlihat.
  • REML memberikan estimasi varians yang lebih besar dan lebih stabil.
  • Perbedaan ML dan REML jauh lebih jelas dibandingkan pada full sample.

Hal ini konsisten dengan teori bahwa ML cenderung meng-underestimate variance component pada ukuran sampel atau jumlah cluster yang kecil.


7. Kesimpulan Small Sample
  • Pengaruh English terhadap Math tetap signifikan.
  • Variasi terbesar tetap terjadi pada level siswa.
  • Efek sekolah relatif kecil.
  • Perbedaan antara ML dan REML menjadi lebih jelas pada sampel kecil.
  • REML lebih direkomendasikan untuk estimasi variance component ketika jumlah cluster terbatas.

D. Kesimpulan

Dalam analisis data dengan struktur hierarkis, seperti siswa dalam sekolah, penggunaan Linear Mixed Model (LMM) menjadi penting untuk memodelkan variasi pada lebih dari satu level. Estimasi parameter varians dalam LMM sangat krusial karena menentukan seberapa besar variasi antar kelompok dan korelasi intra-kelompok. Metode Maximum Likelihood (ML) cenderung mengunderestimate variance component, terutama pada sampel kecil, karena tidak mengoreksi kehilangan derajat bebas akibat estimasi parameter tetap. Restricted Maximum Likelihood (REML) dikembangkan untuk mengatasi bias ini dengan memaksimalkan likelihood yang telah dikonstruksi dari kombinasi linear data yang menghilangkan pengaruh parameter tetap. Pada dataset jsp, yang memiliki struktur hierarkis dengan siswa terkelompok dalam sekolah, REML memberikan estimasi variance component yang lebih besar dibandingkan ML, terutama pada subset kecil. Perbedaan ini menunjukkan bahwa REML lebih stabil dan tidak bias dalam mengestimasi variance component, terutama ketika jumlah cluster terbatas. Secara keseluruhan, REML direkomendasikan sebagai metode utama untuk estimasi variance component dalam model campuran, terutama ketika fokus analisis berada pada struktur variasi dalam data. Pada sampel besar, perbedaan antara ML dan REML mungkin tidak signifikan, tetapi pada sampel kecil, REML memberikan estimasi yang lebih akurat dan stabil.

E. Referensi