Optimasi dalam regresi linear adalah proses untuk menemukan garis atau model matematis yang paling baik dan cocok dengan data yang ada. Dalam konteks ini, \(garis\) mengacu pada hubungan antara variabel independen (biasanya disebut sebagai X) dan variabel dependen (biasanya disebut sebagai Y). Tujuannya adalah untuk membuat garis ini seakurat mungkin dalam memprediksi Y berdasarkan nilai-nilai X.
Proses optimasi ini melibatkan pencarian nilai-nilai tertentu untuk parameter dalam model regresi linear. Parameter ini adalah kemiringan \((slope)\) dan pergeseran \((intercept)\) dari garis regresi. Dalam bahasa yang lebih sederhana, optimasi berusaha menemukan cara terbaik untuk mengatur garis regresi agar cocok dengan data sebaik mungkin.
Untuk mencapai ini, metode optimasi seperti metode kuadrat terkecil \((least squares)\) digunakan. Metode ini mencoba untuk meminimalkan selisih antara prediksi garis regresi dan data yang sebenarnya. Dengan kata lain, kita mencari garis yang memiliki kesalahan prediksi yang paling kecil. Ini akan membuat model regresi linear kita paling akurat dalam memprediksi nilai Y berdasarkan X.
Dengan demikian, optimasi dalam regresi linear adalah upaya untuk menemukan parameter-parameter yang membuat model regresi sesuai dengan data dengan sebaik mungkin, sehingga kita dapat membuat prediksi yang lebih baik tentang hubungan antara variabel X dan Y.
1. Prediksi Harga Rumah berdasarkan Luas Bangunan
Misalkan seseorang ingin memprediksi harga rumah berdasarkan luas bangunan. Kemudian, dia mengumpulkan data harga rumah dan luas bangunan
# Data contoh
luas_bangunan <- c(120, 150, 180, 100, 200)
harga_rumah <- c(250000, 300000, 350000, 200000, 400000)
# Membangun model regresi linear
model <- lm(harga_rumah ~ luas_bangunan)
# Menampilkan parameter-model
coef(model)
Contoh di atas memiliki dua vektor data, yaitu
luas_bangunan sebagai variabel independen (luas bangunan
dalam meter persegi) dan harga_rumah sebagai variabel
dependen (harga rumah dalam dolar). Kemudian, digunakan
lm() untuk membangun model regresi linear, dengan
harga_rumah ~ luas_bangunan untuk mengindikasikan bahwa
tujuanya adalah untuk memprediksi harga rumah berdasarkan luas
bangunan.
Setelah model dibangun, contoh di atas menggunakan
coef(model) untuk menampilkan parameter-model, yang dalam
hal ini adalah koefisien garis regresi (m) yang menunjukkan seberapa
besar kenaikan harga rumah untuk setiap tambahan meter persegi luas
bangunan dan intercept (b) yang adalah perkiraan harga rumah jika luas
bangunan sama dengan nol (dalam konteks ini, itu mungkin tidak
bermakna).
Dengan demikian, regresi linear dapat membantu untuk membuat prediksi harga rumah berdasarkan luas bangunan, yang merupakan aplikasi umum dalam dunia \(real estate\).
2. Pengaruh Tenaga Kuda terhadap Efisiensi Bahan Bakar Mobil
data(mtcars)
model_regresi <- lm(mpg ~ hp, data = mtcars)
summary(model_regresi)
##
## Call:
## lm(formula = mpg ~ hp, data = mtcars)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7121 -2.1122 -0.8854 1.5819 8.2360
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 30.09886 1.63392 18.421 < 2e-16 ***
## hp -0.06823 0.01012 -6.742 1.79e-07 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared: 0.6024, Adjusted R-squared: 0.5892
## F-statistic: 45.46 on 1 and 30 DF, p-value: 1.788e-07
par(mfrow=c(1, 2))
plot(mtcars$hp, mtcars$mpg, main="Regresi Linear", xlab="Tenaga Kuda (hp)", ylab="Efisiensi Bahan Bakar (mpg)")
abline(model_regresi, col="red")
plot(model_regresi, which=1, main="Plot Residu")
Grafik di atas digunakan untuk menganalisis hubungan antara efisiensi
bahan bakar mobil (mpg) dan tenaga kuda (hp) dengan menggunakan data
mobil dari dataset mtcars.
Pertama, akan dibangun model regresi linear untuk memahami bagaimana tenaga kuda memengaruhi efisiensi bahan bakar. Lalu, bisa dilihat ringkasan statistik model tersebut untuk mendapatkan informasi.
Kemudian, dibuat dua grafik. Grafik pertama menunjukkan sebaran titik-titik data efisiensi bahan bakar dan tenaga kuda beserta garis regresi linear yang membantu kita melihat hubungan di antara keduanya. Grafik kedua, yaitu plot residu, membantu kita melihat apakah model yang digunakan cocok dengan data atau ada pola kesalahan prediksi yang perlu diperhatikan.
Dengan analisis ini, kita dapat lebih memahami pengaruh tenaga kuda terhadap efisiensi bahan bakar mobil dan mengevaluasi sejauh mana model regresi linear sesuai dengan data yang digunakan.
Referensi:
Kaplan, Daniel. 2022. MOSAIC Calculus. GitHub Pages. https://dtkaplan.github.io/MC2/