Optimasi dalam Regresi Linear

Optimasi dalam regresi linear adalah proses untuk menemukan garis atau model matematis yang paling baik dan cocok dengan data yang ada. Dalam konteks ini, \(garis\) mengacu pada hubungan antara variabel independen (biasanya disebut sebagai X) dan variabel dependen (biasanya disebut sebagai Y). Tujuannya adalah untuk membuat garis ini seakurat mungkin dalam memprediksi Y berdasarkan nilai-nilai X.

Proses optimasi ini melibatkan pencarian nilai-nilai tertentu untuk parameter dalam model regresi linear. Parameter ini adalah kemiringan \((slope)\) dan pergeseran \((intercept)\) dari garis regresi. Dalam bahasa yang lebih sederhana, optimasi berusaha menemukan cara terbaik untuk mengatur garis regresi agar cocok dengan data sebaik mungkin.

Untuk mencapai ini, metode optimasi seperti metode kuadrat terkecil \((least squares)\) digunakan. Metode ini mencoba untuk meminimalkan selisih antara prediksi garis regresi dan data yang sebenarnya. Dengan kata lain, kita mencari garis yang memiliki kesalahan prediksi yang paling kecil. Ini akan membuat model regresi linear kita paling akurat dalam memprediksi nilai Y berdasarkan X.

Dengan demikian, optimasi dalam regresi linear adalah upaya untuk menemukan parameter-parameter yang membuat model regresi sesuai dengan data dengan sebaik mungkin, sehingga kita dapat membuat prediksi yang lebih baik tentang hubungan antara variabel X dan Y.

Contoh Penerapan Optimasi dalam Regresi Linear

1. Prediksi Harga Rumah berdasarkan Luas Bangunan

Misalkan seseorang ingin memprediksi harga rumah berdasarkan luas bangunan. Kemudian, dia mengumpulkan data harga rumah dan luas bangunan

# Data contoh
luas_bangunan <- c(120, 150, 180, 100, 200)
harga_rumah <- c(250000, 300000, 350000, 200000, 400000)

# Membangun model regresi linear
model <- lm(harga_rumah ~ luas_bangunan)

# Menampilkan parameter-model
coef(model)

Contoh di atas memiliki dua vektor data, yaitu luas_bangunan sebagai variabel independen (luas bangunan dalam meter persegi) dan harga_rumah sebagai variabel dependen (harga rumah dalam dolar). Kemudian, digunakan lm() untuk membangun model regresi linear, dengan harga_rumah ~ luas_bangunan untuk mengindikasikan bahwa tujuanya adalah untuk memprediksi harga rumah berdasarkan luas bangunan.

Setelah model dibangun, contoh di atas menggunakan coef(model) untuk menampilkan parameter-model, yang dalam hal ini adalah koefisien garis regresi (m) yang menunjukkan seberapa besar kenaikan harga rumah untuk setiap tambahan meter persegi luas bangunan dan intercept (b) yang adalah perkiraan harga rumah jika luas bangunan sama dengan nol (dalam konteks ini, itu mungkin tidak bermakna).

Dengan demikian, regresi linear dapat membantu untuk membuat prediksi harga rumah berdasarkan luas bangunan, yang merupakan aplikasi umum dalam dunia \(real estate\).

2. Pengaruh Tenaga Kuda terhadap Efisiensi Bahan Bakar Mobil

data(mtcars)


model_regresi <- lm(mpg ~ hp, data = mtcars)


summary(model_regresi)
## 
## Call:
## lm(formula = mpg ~ hp, data = mtcars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7121 -2.1122 -0.8854  1.5819  8.2360 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 30.09886    1.63392  18.421  < 2e-16 ***
## hp          -0.06823    0.01012  -6.742 1.79e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.863 on 30 degrees of freedom
## Multiple R-squared:  0.6024, Adjusted R-squared:  0.5892 
## F-statistic: 45.46 on 1 and 30 DF,  p-value: 1.788e-07
par(mfrow=c(1, 2)) 


plot(mtcars$hp, mtcars$mpg, main="Regresi Linear", xlab="Tenaga Kuda (hp)", ylab="Efisiensi Bahan Bakar (mpg)")
abline(model_regresi, col="red") 


plot(model_regresi, which=1, main="Plot Residu")

Grafik di atas digunakan untuk menganalisis hubungan antara efisiensi bahan bakar mobil (mpg) dan tenaga kuda (hp) dengan menggunakan data mobil dari dataset mtcars.

Pertama, akan dibangun model regresi linear untuk memahami bagaimana tenaga kuda memengaruhi efisiensi bahan bakar. Lalu, bisa dilihat ringkasan statistik model tersebut untuk mendapatkan informasi.

Kemudian, dibuat dua grafik. Grafik pertama menunjukkan sebaran titik-titik data efisiensi bahan bakar dan tenaga kuda beserta garis regresi linear yang membantu kita melihat hubungan di antara keduanya. Grafik kedua, yaitu plot residu, membantu kita melihat apakah model yang digunakan cocok dengan data atau ada pola kesalahan prediksi yang perlu diperhatikan.

Dengan analisis ini, kita dapat lebih memahami pengaruh tenaga kuda terhadap efisiensi bahan bakar mobil dan mengevaluasi sejauh mana model regresi linear sesuai dengan data yang digunakan.

Referensi:
Kaplan, Daniel. 2022. MOSAIC Calculus. GitHub Pages. https://dtkaplan.github.io/MC2/