Dealing with High Dimensional Data

Methods for High Dimensional Data

Dalam metode statistik konvensional, umumnya ukuran observasi (n) > ukuran peubah (p) dan diperoleh dalam waktu yang lama. Sebaliknya, dalam 20 tahun terakhir, teknologi mengubah cara pengumpulan data menjadi data dengan peubah berukuran besar, ukuran observasi tunggal/sedikit, dan diperoleh dalam waktu yang sangat singkat. Hal ini mendorong statistisi untuk mengatasi masalah dimensi yang sangat besar tersebut.

Data dimensi tinggi diartikan sebagai kondisi data dimana ukuran peubah (p) berukuran jauh lebih besar dibandingkan ukuran observasinya (p). Padahal dalam regresi linier, n harus lebih besra dari p agar antar peubah tidak terjadi multikolinearitas dan pendugaan dengan MKT tidak didapatkan hasil sesuai yang diinginkan (matriks X’X inverse singular). Jika data berdimensi tinggi dianalisis sebagaimana analisis statistika tradisional, aknan menyebabkan trade off antara ragam penduga yang bias dan overfitting (jika peubah banyak akan overfit, dimensi yang besar menyebabkan ragam berbias).

Beberapa cara untuk menangani data berdimensi tinggi dalam regresi linier adalah dengan:

Seleksi (hanya menyeleksi peubah tertentu): Best subset, Stepwise
Shrinkage (menyusutkan koefisien): Regresi Gulur/Ridge, Lasso, Elastic-net
Dimension Reduction atau transformasi membentuk peubah baru: PCR, PLS

Pendekatan Model Regresi Linier

Ketika sebuah penduga menduga parameter, akan ada kuadrat tengah galat atau MSE didefinsikan dengan: MSE(penduga) = Var(penduga) + Bias^2

Teorema Gauss-Markov mengimplikasikan bahwa penduga kuadrat terkecil memiliki kuadrat tengah galat terkecil dari seluruh penduga linier tak bias.

Melalui persamaan MSE di atas:

Belum tentu data yang tidak berbias memiliki MSE lebih keci, bisa jadi MSE besar karena ragamnya besar karena dimensinya besar.
Kuadrat terkecil untuk menduga parameter pada data dimensi besar dirasa kurang memuaskan karena berbias rendah tetapi ragam besar.
Karena kondisi dimensinya yang besar, memungkinkan banyak peubah yang menduga peubah respon sehingga menyulitkan dalam interpretasi.

Padahal yang diharapkan adalah penduga dengan MSE kecil. Maka dibandingkan data tidak berbias tetapi ragam besar, maka lebih baik data berbias tetapi ragam kecil. Kondisi ini dapat dimungkinkan dengan menggunakan metode seleksi dan shrinkage dalam menduga model regresi.

Metode Seleksi

Metode seleksi menggunakan Subset Terbaik (Best Subset) dan Regresi Bertatar (Stepwise Regression) mmeberikan beberapa keuntungan dan kerugian:

(+) mengurangi ragam prediksi dengan mengorbankan sedikit bias.
(+) interpretasi model semakin mudah karena model hanya memuat peubah-peubah yang di-subset atau diambil sebagiannya.
(-) penduga model tidak stabil karena adanya bias. Ketidakstabilan ini memungkinkan jika ada perubahan pada data, akan menghasilkan model yang berbeda (termasuk subsetnya).

Metode Regresi Gulud / Ridge

Teknik ini menduga B(ridge) dengan meminimumkan jumlah kuadrat sisaan dengan syarat jumlah seluruh Beta(i) ≤ dari suatu nilai yang ditentukan (t) dimana t ≥ 0 (yang sangat kecil).

Sama seperti teknik sebelumnya, teknik ini memiliki beberapa keuntungan dan kelemahan:

(+) menurunkan ragam dan mengorbankan sedikit bias
(+) model yang dihasilkan lebih stabil
(-) interpretasi lebih sulit karena peubahnya banyak dan parameter peubahnya diduga semua

Metode Shrinkage

Dikembangkan oleh Tibshirani (1996) melalui metode gabungan kedua metode sebelumnya dan mempertahakan keunggulan-keunggulan masing-masing metode yang dinamakan LASSO (Least Absolute Shrinkage and Selection Operator) yaitu:

Ragam kecil, walaupun mengorbankan sedikit bias
Model stabil

Motivasi pengembangan LASSO berasal dari metode Non-negative Garrote yang dikembangkan sebelumnya oleh Breiman (1995).

Regresi Gulud/Ridge Regression

Jika menggunakan metode kuadrat terkecil (MKT) pada data berdimensi tinggi, X’X inverse tidak ada karena X’X singular. Sehinga regresi gulud diterapkan dengan:

Memberikan penalti ukuran dari koefisien regresi pada norm L_2 (secara spesifik, menduga dengan meminimumkan JKS(Beta) dengan kendala: Jumlah Bj^2≤t, t≥0).
Membentuk fungsi tujuan untuk ridge dengan meminimumkan JKS + lambda*jumlah Bj^2 untuk lambda ≥ 0 (dalam bentuk lagrangian).
Diperoleh solusi unik (satu-satunya) bagi penduga Beta untuk setiap nilai lambda, dimana: Beta_ridge = (X’X + lambda*I)^-1 X’y
Pemilihan nilai lambda, dilakukan metode k-fold cross validation untuk menangani trade off antara bias dan ragam

Sebagai catatan, penduga koefisien yang diperoleh menggunakan regresi gulud adalah tidak equivariant (jika peubah ditransformasi ke bentuk lain, penduga koefisiennya akan ikut berubah). Sehingga untuk mengatasinya, peubah dilakukan pembakuan terlebih dahulu sebelum dihitung penduga modelnya.

Forward and Stepwise Selection

Dilakukan dengan memasukkan peubah satu per satu yang memenuhi kriteria sampai membentuk persamaan regresi yang lengkap.

Y = konstanta tertentu
Memasukkan peubah stau-satu dengan evaluasi berdasarkan kriteria statistik tertentu: R^2, Radj^2, JKS, F, CpsMallows atau AIC yang penduga modelnya diduga dengan MKT.

Sebaliknya, stepwise dilakukan dengan membentuk model lengkap kemudian dibuang satu-satu peubah yang tidak memenuhi kriteria statistik.

LASSO Regression

Dilakukan dengan:

Menentukan penalti L1 dibanding L2 pada ridge regression
Menambahkan fungsi tujuan lasso: JKS(Beta) + lambda*jumlah mutlak Bj untuk lambda ≥ 0

Reduksi Dimensi dengan PCR

Merupakan perpaduan PCA dan MKT
Proses yang dilakukan: X ditransformasi ke dalam p komponen utama Zi yang saling orthogonal (Zi merupakan model linier dari masing-masing Xi)
Setelah didapatkan transformasi X ke dalam k<p komponen utama, dilakukan pendugaan Y=ZB
Untuk memilih nilai penalti lambda dengan CV (cross validation), dimana data dibagi 2 bagian: train dan test
Data train untuk fitting nilai beta, test untuk menguji kebaikan XB
Nilai validasi silang digunakan untuk penduga bagi galat prediksi

Untuk memilih tunning parameter terbaik dengan validasi silang, ada 2 teknik validasi silang:

Leave one out (LOO): satu observasi sebagai data test dan sisanya sebagai data training (n observasi, ukuran validasi silangnya n kali). Memiliki kelemahan yaitu masih ada masalah overfititng.
k-fold (semua observasi dipartisi secara acak ke dalam k sub-contoh umumnya 5 atau 10 tapi semakin banyak semakin baik).