Dalam analisis data modern, khususnya pada data yang memiliki struktur hierarkis atau berkelompok, seperti siswa dalam sekolah, pasien dalam rumah sakit, atau pengukuran berulang dalam individu, asumsi independensi antar observasi sering kali tidak terpenuhi. Dalam situasi ini, Linear Mixed Model (LMM) menjadi pendekatan yang relevan karena mampu memodelkan variasi pada lebih dari satu level melalui kombinasi fixed effects dan random effects.
Namun, tantangan utama dalam model campuran bukan hanya pada estimasi parameter tetap (fixed effects), melainkan pada estimasi variance components, yaitu parameter yang menggambarkan heterogenitas antar kelompok. Estimasi komponen varians ini sangat penting karena menentukan:
Seberapa besar variasi antar kelompok (misalnya antar sekolah),
Seberapa kuat struktur hierarkis dalam data,
Seberapa besar korelasi intra-kelompok (ICC),
Validitas inferensi statistik yang dihasilkan.
Metode Maximum Likelihood (ML) secara umum dapat digunakan untuk mengestimasi parameter dalam model campuran. Akan tetapi, ML diketahui memiliki kecenderungan mengunderestimate variance components, terutama pada ukuran sampel atau jumlah kelompok yang terbatas. Bias ini muncul karena ML mengestimasi parameter tetap dan parameter varians secara simultan tanpa mengoreksi kehilangan derajat bebas akibat estimasi fixed effects.
Untuk mengatasi permasalahan tersebut, dikembangkan metode Restricted Maximum Likelihood (REML). REML memaksimalkan likelihood yang telah dikonstruksi dari kombinasi linear data yang menghilangkan pengaruh parameter tetap, sehingga estimasi variance components menjadi lebih tidak bias. Secara konseptual, REML dapat dipahami sebagai bentuk maksimum likelihood yang telah dikoreksi terhadap efek estimasi parameter tetap.
Urgensi penggunaan REML semakin efektif dalam konteks:
Model multilevel dengan jumlah cluster kecil,
Studi longitudinal dengan pengukuran terbatas,
Analisis yang berfokus pada heterogenitas antar unit,
Penelitian yang menekankan estimasi komponen varians secara akurat.
Dengan demikian, REML bukan sekadar alternatif teknis dari ML, melainkan pendekatan yang secara metodologis lebih tepat ketika tujuan utama analisis adalah memperoleh estimasi variance component yang stabil dan tidak bias. Dalam praktik multilevel modeling modern, REML sering direkomendasikan sebagai metode estimasi utama ketika fokus analisis berada pada struktur variasi dalam data.
REML digunakan dalam kerangka (LMM).
Model umum:
\[\begin{equation} \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{Z}\mathbf{u} + \boldsymbol{\varepsilon} \end{equation}\]
dengan:
\(\mathbf{y}\) : vektor respon \(n \times 1\)
\(\mathbf{X}\) : matriks desain fixed effect
\(\boldsymbol{\beta}\) : parameter tetap
\(\mathbf{Z}\) : matriks desain random effect \(\mathbf{u} \sim \mathcal{N}(0, \mathbf{G})\)
\(\boldsymbol{\varepsilon} \sim \mathcal{N}(0, \mathbf{R})\)
Sehingga:
\[\begin{equation} \mathbf{y} \sim \mathcal{N}(\mathbf{X}\boldsymbol{\beta}, \mathbf{V}) \end{equation}\]
dengan:
\[\begin{equation} \mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}^T + \mathbf{R} \end{equation}\]
Likelihood penuh (ML):
\[\begin{equation} L(\boldsymbol{\beta}, \boldsymbol{\theta}) = (2\pi)^{-n/2} |\mathbf{V}|^{-1/2} \exp\left( -\frac{1}{2} (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})^T \mathbf{V}^{-1} (\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) \right) \end{equation}\]
Masalahnya:
\(\boldsymbol{\beta}\) dan parameter varians \(\boldsymbol{\theta}\) diestimasi bersama.
Estimasi varians tidak memperhitungkan hilangnya derajat bebas akibat estimasi \(\boldsymbol{\beta}\).
Akibatnya, ML cenderung mengunderestimate variance components, terutama pada sampel kecil.
REML bertujuan mengestimasi parameter varians \(\boldsymbol{\theta}\) tanpa dipengaruhi oleh estimasi \(\boldsymbol{\beta}\).
Caranya:
Mengkontruksi likelihood dari kombinasi linear data yang menghilangkan fixed effect.
Misalkan ada matriks \(\mathbf{L}\) sehingga:
\[\begin{equation} \mathbf{L}^T \mathbf{X} = 0 \end{equation}\]
Maka:
\[\begin{equation} \mathbf{L}^T \mathbf{y} \end{equation}\]
tidak lagi mengandung \(\boldsymbol{\beta}\).
REML memaksimalkan likelihood dari transformasi ini.
Restricted likelihood dapat dituliskan sebagai:
\[\begin{equation} L_R(\boldsymbol{\theta}) \propto |\mathbf{V}|^{-1/2} |\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X}|^{-1/2} \exp\left( -\frac{1}{2} \mathbf{y}^T \mathbf{P} \mathbf{y} \right) \end{equation}\]
dengan:
\[\begin{equation} \mathbf{P} = \mathbf{V}^{-1} - \mathbf{V}^{-1} \mathbf{X} (\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{V}^{-1} \end{equation}\]
Perhatikan adanya faktor tambahan:
\[\begin{equation} |\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X}|^{-1/2} \end{equation}\]
Inilah koreksi derajat bebas yang tidak ada pada ML.
Bentuk log-likelihood REML:
\[\begin{equation} \ell_R(\boldsymbol{\theta}) = -\frac{1}{2} \left[ \log|\mathbf{V}| + \log|\mathbf{X}^T \mathbf{V}^{-1}\mathbf{X}| + \mathbf{y}^T \mathbf{P}\mathbf{y} + (n-p)\log(2\pi) \right] \end{equation}\]
dengan:
\(n\) = jumlah observasi
\(p\) = jumlah fixed effect
Karena solusi tertutup umumnya tidak tersedia, REML diestimasi secara numerik.
Langkah umum algoritma:
Langkah 1: Inisialisasi
Tentukan nilai awal parameter varians:
\[\begin{equation} \boldsymbol{\theta}^{(0)} \end{equation}\]
Langkah 2: Hitung Matriks Varians
\[\begin{equation} \mathbf{V} = \mathbf{Z}\mathbf{G}\mathbf{Z}^T + \mathbf{R} \end{equation}\]
Langkah 3: Hitung Estimator GLS untuk
$\boldsymbol{\beta}$
\[\begin{equation} \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{V}^{-1} \mathbf{X})^{-1} \mathbf{X}^T \mathbf{V}^{-1} \mathbf{y} \end{equation}\]
Langkah 4: Evaluasi Log-Restricted Likelihood
Hitung:
\[\begin{equation} \ell_R(\boldsymbol{\theta}) \end{equation}\]
Langkah 5: Update Parameter Varians
Gunakan metode optimisasi numerik, seperti Algoritma AI-REML pada Library(lme4) dan Update parameter:
\[\begin{equation} \boldsymbol{\theta}^{(t+1)} = \boldsymbol{\theta}^{(t)} + \mathbf{I}^{-1} \mathbf{s} \end{equation}\]
dengan:
\(\mathbf{s}\) = score function
\(\mathbf{I}\) = average information matrix
REML adalah: Estimasi maximum likelihood yang dibatasi pada subruang ortogonal terhadap fixed effects.
Secara praktis:
Digunakan untuk estimasi variance component
Lebih stabil pada sampel kecil
Direkomendasikan untuk model multilevel
Dataset jsp (Junior School Project) yang tersedia pada
paket faraway merupakan data pendidikan yang dikumpulkan
dari sekolah dasar di Inner London. Dataset ini berbentuk data frame
dengan 3236 observasi dan 9 variabel. Artinya:
Setiap siswa terikat pada satu sekolah.
Siswa dalam sekolah yang sama cenderung memiliki karakteristik yang lebih mirip.
Observasi tidak independen (tidak IID).
Struktur ini cocok dianalisis menggunakan Linear Mixed Model (LMM) dengan metode REML.
Struktur data bersifat karena siswa berada dalam sekolah tertentu, sehingga: