Expectation–Maximization: Dari Data Hilang hingga Estimasi Optimal
Author
Muhammad Yusran
Published
November 11, 2025
Pendahuluan
Dalam banyak permasalahan statistika modern, keberadaan data yang tidak lengkap—baik karena hilang, tidak teramati, maupun secara intrinsik bersifat laten—menjadi tantangan penting dalam melakukan pendugaan parameter. Metode klasik seperti Maximum Likelihood pada umumnya mensyaratkan ketersediaan data lengkap agar fungsi likelihood dapat dievaluasi dan dioptimasi secara langsung. Akan tetapi, ketika sebagian komponen data tidak tersedia, proses optimasi dapat menjadi sangat kompleks atau bahkan tidak dapat dilakukan secara analitik.
Algoritma Expectation–Maximization (EM) hadir sebagai pendekatan sistematis untuk menyelesaikan permasalahan tersebut. EM memungkinkan proses pendugaan parameter dilakukan meskipun sebagian informasi tidak terobservasi, dengan memanfaatkan struktur probabilistik antara data teramati (observed data) dan data tidak teramati (missing atau latent data). Intuisi utama metode ini adalah bahwa pendugaan parameter dapat disederhanakan apabila kita dapat “melengkapi” data yang hilang—bukan secara langsung, tetapi melalui ekspektasi berdasarkan parameter sementara. Pendekatan inilah yang membuat EM sangat fleksibel dan relevan dalam berbagai konteks.
Algoritma EM bekerja melalui dua langkah berulang. Langkah Ekspektasi (E-step) membentuk nilai harapan dari log-likelihood data lengkap dengan kondisi data yang teramati dan nilai parameter saat ini. Selanjutnya, Langkah Maksimisasi (M-step) memperbarui parameter dengan memaksimalkan nilai harapan tersebut. Proses ini menghasilkan urutan estimasi parameter yang secara teoretis dijamin tidak menurunkan nilai log-likelihood (monotonicity property), dan pada akhirnya mengarah pada nilai konvergen yang stabil.
Sejak diperkenalkan oleh Dempster, Laird, dan Rubin (1977), algoritma EM telah menjadi salah satu metode paling berpengaruh dalam statistika komputasional. Metode ini digunakan secara luas dalam berbagai bidang seperti pengelompokan berbasis model (misalnya Gaussian Mixture Models), pemrosesan sinyal, genetika, machine learning, analisis citra, hingga inferensi berbasis model laten. Keunggulan utamanya terletak pada kemampuan menangani struktur data yang rumit dengan pendekatan iteratif yang relatif sederhana dan mudah diimplementasikan.
Dasar Teoretis Algoritma EM
Algoritma Expectation–Maximization (EM) merupakan metode iteratif untuk melakukan pendugaan parameter ketika sebagian data tidak teramati atau bersifat laten. Ide utamanya adalah memaksimalkan expected complete-data log-likelihood alih-alih langsung memaksimalkan observed-data log-likelihood yang sering kali sulit dikerjakan secara analitik.
Pada bagian ini dibahas landasan teoretis yang menjadi dasar algoritma EM.
Observed Data, Missing Data, dan Complete Data
Misalkan:
\(y\) = observed data
\(x\) = missing atau latent data
\(z = (x, y)\) = complete data
Jika distribusi lengkap \(f(z \mid \theta)\) lebih mudah dianalisis dibandingkan \(f(y \mid \theta)\), maka optimasi terhadap likelihood complete-data dapat memberikan pendekatan yang lebih sederhana.
di mana \(\ell(\theta \mid y) = \log f(y \mid \theta)\).
Sifat ini diperoleh karena:
E-step membentuk lower bound terhadap log-likelihood
M-step memaksimalkan lower bound tersebut.
Dengan demikian, nilai log-likelihood tidak menurun di setiap iterasi, meskipun EM tidak selalu dijamin mencapai global maximum.
Interpretasi Probabilistik
EM dapat dipandang sebagai proses yang berulang antara:
mengestimasi nilai ekspektasi data hilang (E-step), dan
mengoptimasi parameter berbasis data lengkap yang diestimasi (M-step).
Interpretasi ini menjadikan EM sangat relevan untuk model yang mengandung struktur laten seperti mixture models, hidden Markov models, dan pemodelan hierarkis.
Studi Kasus: Pendugaan Parameter Multinomial Menggunakan Algoritma EM
Pada studi ini, Rao (1973) melakukan pembagian secara acak 197 hewan ke dalam empat kategori berdasarkan phenotype. Misalkan vektor jumlah pengamatan dituliskan sebagai: