Dalam metode statistik konvensional, umumnya ukuran observasi (n) > ukuran peubah (p) dan diperoleh dalam waktu yang lama. Sebaliknya, dalam 20 tahun terakhir, teknologi mengubah cara pengumpulan data menjadi data dengan peubah berukuran besar, ukuran observasi tunggal/sedikit, dan diperoleh dalam waktu yang sangat singkat. Hal ini mendorong statistisi untuk mengatasi masalah dimensi yang sangat besar tersebut.
Data dimensi tinggi diartikan sebagai kondisi data dimana ukuran peubah (p) berukuran jauh lebih besar dibandingkan ukuran observasinya (p). Padahal dalam regresi linier, n harus lebih besra dari p agar antar peubah tidak terjadi multikolinearitas dan pendugaan dengan MKT tidak didapatkan hasil sesuai yang diinginkan (matriks X’X inverse singular). Jika data berdimensi tinggi dianalisis sebagaimana analisis statistika tradisional, aknan menyebabkan trade off antara ragam penduga yang bias dan overfitting (jika peubah banyak akan overfit, dimensi yang besar menyebabkan ragam berbias).
Beberapa cara untuk menangani data berdimensi tinggi dalam regresi linier adalah dengan:
Ketika sebuah penduga menduga parameter, akan ada kuadrat tengah galat atau MSE didefinsikan dengan: MSE(penduga) = Var(penduga) + Bias^2
Teorema Gauss-Markov mengimplikasikan bahwa penduga kuadrat terkecil memiliki kuadrat tengah galat terkecil dari seluruh penduga linier tak bias.
Melalui persamaan MSE di atas:
Padahal yang diharapkan adalah penduga dengan MSE kecil. Maka dibandingkan data tidak berbias tetapi ragam besar, maka lebih baik data berbias tetapi ragam kecil. Kondisi ini dapat dimungkinkan dengan menggunakan metode seleksi dan shrinkage dalam menduga model regresi.
Metode seleksi menggunakan Subset Terbaik (Best Subset) dan Regresi Bertatar (Stepwise Regression) mmeberikan beberapa keuntungan dan kerugian:
Teknik ini menduga B(ridge) dengan meminimumkan jumlah kuadrat sisaan dengan syarat jumlah seluruh Beta(i) ≤ dari suatu nilai yang ditentukan (t) dimana t ≥ 0 (yang sangat kecil).
Sama seperti teknik sebelumnya, teknik ini memiliki beberapa keuntungan dan kelemahan:
Dikembangkan oleh Tibshirani (1996) melalui metode gabungan kedua metode sebelumnya dan mempertahakan keunggulan-keunggulan masing-masing metode yang dinamakan LASSO (Least Absolute Shrinkage and Selection Operator) yaitu:
Motivasi pengembangan LASSO berasal dari metode Non-negative Garrote yang dikembangkan sebelumnya oleh Breiman (1995).
Jika menggunakan metode kuadrat terkecil (MKT) pada data berdimensi tinggi, X’X inverse tidak ada karena X’X singular. Sehinga regresi gulud diterapkan dengan:
Sebagai catatan, penduga koefisien yang diperoleh menggunakan regresi gulud adalah tidak equivariant (jika peubah ditransformasi ke bentuk lain, penduga koefisiennya akan ikut berubah). Sehingga untuk mengatasinya, peubah dilakukan pembakuan terlebih dahulu sebelum dihitung penduga modelnya.
Dilakukan dengan memasukkan peubah satu per satu yang memenuhi kriteria sampai membentuk persamaan regresi yang lengkap.
Sebaliknya, stepwise dilakukan dengan membentuk model lengkap kemudian dibuang satu-satu peubah yang tidak memenuhi kriteria statistik.
Dilakukan dengan:
Untuk memilih tunning parameter terbaik dengan validasi silang, ada 2 teknik validasi silang: