Pemodelan Fungsi Basis dan Basis Spline pada Hubungan Horsepower dan MPG
Author
Natalinda Erlina Amheka
Published
November 21, 2025
1 Tugas
Pemodelan Hubungan Horsepower dan MPG dengan Fungsi Basis dan Basis Spline
Diberikan data Auto yang memuat informasi tentang berbagai mobil, dengan variabel utama:
mpg : miles per gallon (ukuran efisiensi bahan bakar)
horsepower : tenaga mesin mobil
origin : asal mobil (USA, Europe, Japan)
Bangun model fungsi basis (basis function) yang memodelkan hubungan mpg sebagai fungsi dari horsepower,untuk setiap kelompok origin (USA, Europe, Japan).
Bangun model basis spline untuk hubungan yang sama (mpg ~ horsepower), juga terpisah untuk setiap origin.
Tampilkan kurva hasil pemodelan spline untuk ketiga origin dalam satu plot.
Jelaskan insight yang diperoleh hasil pemodelan
1.1 Penyelesaian
Persiapan Data
library(ISLR)
Warning: package 'ISLR' was built under R version 4.5.2
library(dplyr)
Attaching package: 'dplyr'
The following objects are masked from 'package:stats':
filter, lag
The following objects are masked from 'package:base':
intersect, setdiff, setequal, union
library(ggplot2) library(splines) data(Auto)df <- Auto str(df)
mpg cylinders displacement horsepower weight
Min. : 9.00 Min. :3.000 Min. : 68.0 Min. : 46.0 Min. :1613
1st Qu.:17.00 1st Qu.:4.000 1st Qu.:105.0 1st Qu.: 75.0 1st Qu.:2225
Median :22.75 Median :4.000 Median :151.0 Median : 93.5 Median :2804
Mean :23.45 Mean :5.472 Mean :194.4 Mean :104.5 Mean :2978
3rd Qu.:29.00 3rd Qu.:8.000 3rd Qu.:275.8 3rd Qu.:126.0 3rd Qu.:3615
Max. :46.60 Max. :8.000 Max. :455.0 Max. :230.0 Max. :5140
acceleration year origin name
Min. : 8.00 Min. :70.00 Min. :1.000 amc matador : 5
1st Qu.:13.78 1st Qu.:73.00 1st Qu.:1.000 ford pinto : 5
Median :15.50 Median :76.00 Median :1.000 toyota corolla : 5
Mean :15.54 Mean :75.98 Mean :1.577 amc gremlin : 4
3rd Qu.:17.02 3rd Qu.:79.00 3rd Qu.:2.000 amc hornet : 4
Max. :24.80 Max. :82.00 Max. :3.000 chevrolet chevette: 4
(Other) :365
Dilihat dari tabel diatas origin massih berupa numeric jadi origin diubah menjadi faktor karena variabel ini bersifat kategorik (USA, Europe, Japan), bukan angka yang memiliki urutan atau jarak. Jika dibiarkan sebagai numeric (1, 2, 3), R akan menganggapnya sebagai variabel kontinu sehingga analisis dan visualisasi bisa salah.
# 4. Ubah origin menjadi faktor dengan label negara# Di dataset ISLR, origin = 1,2,3df$origin <-factor(df$origin,levels =c(1, 2, 3),labels =c("USA", "Europe", "Japan"))str(df)
# A tibble: 3 × 6
origin n mean_mpg sd_mpg mean_hp sd_hp
<fct> <int> <dbl> <dbl> <dbl> <dbl>
1 USA 245 20.0 6.44 119. 39.9
2 Europe 68 27.6 6.58 80.6 20.2
3 Japan 79 30.5 6.09 79.8 17.8
ggplot(df, aes(x = horsepower, y = mpg)) +geom_point(color ="black", alpha =0.7) +# titik hitamgeom_smooth(aes(color = origin), method ="loess", se =FALSE, size =1) +scale_color_manual(values =c("USA"="black", # hitam"Europe"="darkred", # merah gelap"Japan"="navy"# biru gelap )) +labs(title ="Scatter Plot MPG vs Horsepower per Origin (Warna Gelap)",x ="Horsepower",y ="Miles per Gallon (MPG)",color ="Origin" ) +theme_bw()
Warning: Using `size` aesthetic for lines was deprecated in ggplot2 3.4.0.
ℹ Please use `linewidth` instead.
`geom_smooth()` using formula = 'y ~ x'
Berdasarkan hasil eksplorasi data, terlihat adanya perbedaan yang cukup jelas antara karakteristik kendaraan dari setiap origin. Mobil asal USA memiliki rata-rata horsepower yang paling tinggi (sekitar 119 HP) dan rata-rata mpg yang paling rendah, sehingga dapat disimpulkan bahwa mobil Amerika cenderung memiliki tenaga besar namun relatif boros bahan bakar. Sebaliknya, mobil asal Japan menunjukkan pola yang berlawanan, dengan rata-rata horsepower paling rendah (sekitar 80 HP) tetapi rata-rata mpg tertinggi, sehingga mencerminkan efisiensi bahan bakar yang lebih baik. Mobil Europe berada pada posisi menengah, baik dari sisi horsepower maupun mpg. Pola ini juga tampak pada scatter plot mpg terhadap horsepower: titik-titik untuk USA terkonsentrasi pada area horsepower tinggi dan mpg rendah, sedangkan titik-titik untuk Japan lebih banyak berada pada area horsepower rendah dan mpg tinggi, dengan Europe berada di antara keduanya. Secara keseluruhan, scatter plot menunjukkan hubungan menurun antara horsepower dan mpg, di mana peningkatan horsepower diikuti oleh penurunan efisiensi bahan bakar. Pola penurunan ini bersifat non-linear, terutama terlihat dari penurunan tajam pada horsepower rendah dan pola yang lebih melandai pada horsepower tinggi. Temuan ini mengindikasikan bahwa pemodelan linear sederhana tidak memadai, sehingga analisis selanjutnya perlu menggunakan metode yang mampu menangkap hubungan non-linear, seperti fungsi basis dan basis spline, serta dilakukan secara terpisah untuk setiap origin karena masing-masing memiliki karakteristik mesin dan efisiensi yang berbeda.
3.Pemodelan dengan Fungsi Basis (Polynomial Basis)
# Pisahkan data berdasarkan originusa <- df %>%filter(origin =="USA")eur <- df %>%filter(origin =="Europe")jap <- df %>%filter(origin =="Japan")# Model polynomial degree 3 untuk masing-masing originmod_poly_usa <-lm(mpg ~poly(horsepower, 3), data = usa)mod_poly_eur <-lm(mpg ~poly(horsepower, 3), data = eur)mod_poly_jap <-lm(mpg ~poly(horsepower, 3), data = jap)# Lihat ringkasan modelsummary(mod_poly_usa)
Call:
lm(formula = mpg ~ poly(horsepower, 3), data = usa)
Residuals:
Min 1Q Median 3Q Max
-13.3092 -2.3199 -0.2081 2.0794 13.2928
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 20.0335 0.2435 82.262 < 2e-16 ***
poly(horsepower, 3)1 -75.6095 3.8119 -19.835 < 2e-16 ***
poly(horsepower, 3)2 29.4684 3.8119 7.731 2.89e-13 ***
poly(horsepower, 3)3 -5.8086 3.8119 -1.524 0.129
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.812 on 241 degrees of freedom
Multiple R-squared: 0.654, Adjusted R-squared: 0.6497
F-statistic: 151.8 on 3 and 241 DF, p-value: < 2.2e-16
summary(mod_poly_eur)
Call:
lm(formula = mpg ~ poly(horsepower, 3), data = eur)
Residuals:
Min 1Q Median 3Q Max
-10.6346 -2.6497 -0.8141 2.1774 12.8935
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.6029 0.5985 46.123 < 2e-16 ***
poly(horsepower, 3)1 -36.6027 4.9351 -7.417 3.44e-10 ***
poly(horsepower, 3)2 1.0265 4.9351 0.208 0.836
poly(horsepower, 3)3 1.2153 4.9351 0.246 0.806
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.935 on 64 degrees of freedom
Multiple R-squared: 0.4627, Adjusted R-squared: 0.4375
F-statistic: 18.37 on 3 and 64 DF, p-value: 1.041e-08
summary(mod_poly_jap)
Call:
lm(formula = mpg ~ poly(horsepower, 3), data = jap)
Residuals:
Min 1Q Median 3Q Max
-8.8602 -2.7115 -0.5224 2.1985 11.6985
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.4506 0.4536 67.138 < 2e-16 ***
poly(horsepower, 3)1 -36.2030 4.0312 -8.981 1.62e-13 ***
poly(horsepower, 3)2 9.1966 4.0312 2.281 0.0254 *
poly(horsepower, 3)3 16.6991 4.0312 4.142 8.92e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.031 on 75 degrees of freedom
Multiple R-squared: 0.5787, Adjusted R-squared: 0.5618
F-statistic: 34.34 on 3 and 75 DF, p-value: 4.485e-14
Hasil pemodelan fungsi basis polinomial derajat tiga menunjukkan bahwa hubungan antara horsepower dan mpg bersifat non-linear pada ketiga kelompok origin. Untuk mobil asal USA, model mampu menjelaskan sekitar 65,4% variasi mpg (Adjusted R² = 0.6497), menunjukkan kecocokan model yang cukup baik. Koefisien polynomial pertama sangat signifikan (p < 2e-16) dan bernilai negatif, yang menegaskan bahwa peningkatan horsepower secara kuat menurunkan mpg. Efek non-linear ditangkap oleh komponen derajat dua yang signifikan positif, meskipun komponen derajat tiga tidak signifikan. Hal ini menunjukkan pola menurun yang melengkung, tetapi tingkat kelengkungannya tidak terlalu kompleks pada mobil USA.
Pada mobil Europe, model hanya mampu menjelaskan 43,8% variasi mpg (Adjusted R² = 0.4375), yang menunjukkan bahwa hubungan horsepower–mpg di Eropa lebih lemah dibandingkan USA dan Jepang. Hanya komponen polynomial pertama yang signifikan (p < 1e-09), sedangkan komponen derajat dua dan tiga tidak signifikan, menandakan bahwa pola hubungan di Eropa cenderung lebih sederhana, hampir mirip polynomial derajat satu atau dua saja.
Sementara itu, mobil asal Japan menunjukkan hasil yang cukup kuat, dengan 56,2% variasi mpg dapat dijelaskan oleh model polynomial (Adjusted R² = 0.5618). Tidak seperti Eropa, pada mobil Jepang, ketiga komponen polynomial signifikan, dengan polynomial pertama yang negatif (penurunan mpg seiring peningkatan horsepower), polynomial kedua yang positif, dan polynomial ketiga yang juga positif. Ini menunjukkan bahwa hubungan horsepower–mpg pada mobil Jepang lebih kompleks dan lebih melengkung dibandingkan dua origin lainnya.
Secara keseluruhan, ketiga model menunjukkan pola yang konsisten: horsepower memiliki efek negatif yang sangat kuat terhadap mpg, dan pola hubungan ini bersifat non-linear. Namun, kedalaman kelengkungan dan kompleksitas pola berbeda antar origin. Mobil USA menunjukkan efek kuat dengan pola non-linear sedang, mobil Eropa lebih sederhana dan kurang melengkung, sedangkan mobil Jepang menunjukkan bentuk non-linear yang lebih kompleks. Perbedaan ini mencerminkan karakteristik desain mesin di masing-masing negara—USA cenderung menghasilkan mobil berhorsepower besar dan boros, Jepang lebih efisien namun dengan pola efek horsepower yang lebih beragam, dan Eropa berada di antara keduanya.
Pemodelan dengan Basis Spline
# Bangun model spline (df = 4) untuk tiap originmod_spl_usa <-lm(mpg ~bs(horsepower, df =4), data = usa)mod_spl_eur <-lm(mpg ~bs(horsepower, df =4), data = eur)mod_spl_jap <-lm(mpg ~bs(horsepower, df =4), data = jap)# Ringkasan model summary(mod_spl_usa)
Call:
lm(formula = mpg ~ bs(horsepower, df = 4), data = usa)
Residuals:
Min 1Q Median 3Q Max
-13.3327 -2.3068 -0.1833 2.1491 13.2185
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34.619 2.367 14.627 < 2e-16 ***
bs(horsepower, df = 4)1 -5.935 3.236 -1.834 0.0679 .
bs(horsepower, df = 4)2 -22.773 2.505 -9.091 < 2e-16 ***
bs(horsepower, df = 4)3 -20.925 3.793 -5.517 8.92e-08 ***
bs(horsepower, df = 4)4 -21.843 2.728 -8.006 5.08e-14 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.819 on 240 degrees of freedom
Multiple R-squared: 0.6541, Adjusted R-squared: 0.6484
F-statistic: 113.5 on 4 and 240 DF, p-value: < 2.2e-16
Call:
lm(formula = mpg ~ bs(horsepower, df = 4), data = jap)
Residuals:
Min 1Q Median 3Q Max
-8.4022 -2.7607 -0.4606 1.9258 11.2208
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.617 2.101 15.524 < 2e-16 ***
bs(horsepower, df = 4)1 5.702 3.277 1.740 0.08597 .
bs(horsepower, df = 4)2 -5.421 4.620 -1.173 0.24447
bs(horsepower, df = 4)3 -15.457 5.466 -2.828 0.00602 **
bs(horsepower, df = 4)4 -2.564 4.018 -0.638 0.52528
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.025 on 74 degrees of freedom
Multiple R-squared: 0.5855, Adjusted R-squared: 0.5631
F-statistic: 26.13 on 4 and 74 DF, p-value: 1.6e-13
Hasil pemodelan basis spline dengan derajat kebebasan 4 menunjukkan bahwa hubungan antara horsepower dan mpg bersifat non-linear pada ketiga kelompok origin. Untuk mobil USA, model menjelaskan sekitar 65.4% variasi mpg (Adjusted R² = 0.6484), yang merupakan kecocokan model kuat. Koefisien spline kedua, ketiga, dan keempat signifikan pada tingkat signifikansi yang tinggi (p < 0.001), menunjukkan bahwa bentuk kurva non-linear benar-benar penting dalam menjelaskan hubungan horsepower terhadap mpg pada kendaraan USA. Pola ini menggambarkan bahwa pada horsepower rendah terjadi penurunan mpg yang brlangsung cukup tajam, lalu efeknya melandai pada horsepower lebih besar.
Pada mobil Europe, model spline menjelaskan sekitar 43% variasi mpg (Adjusted R² = 0.4302), sehingga kecocokan model lebih rendah dibanding USA dan Japan. Tiga dari empat koefisien spline signifikan (p < 0.05), yang menunjukkan pola non-linear tetap ada, tetapi tidak sekuat kelompok USA. Efek horsepower terhadap mpg di Eropa tampak lebih moderat, dan variasi mpg tidak sepenuhnya bergantung pada horsepower.
Mobil Japan menunjukkan performa model yang cukup baik dengan sekitar 56.3% variasi mpg dijelaskan oleh model spline (Adjusted R² = 0.5631). Pada kelompok ini, hanya spline basis ke-3 yang signifikan (p = 0.006), sementara komponen lainnya tidak signifikan. Hal ini mengindikasikan bahwa meskipun terdapat pola non-linear, bentuk kurvanya tidak sekompleks USA. Karena mobil Jepang pada umumnya memiliki rentang horsepower yang lebih kecil, variasi mpg juga lebih stabil, sehingga model spline menangkap satu lengkungan utama yang menggambarkan penurunan mpg seiring meningkatnya tenaga mesin.
Secara keseluruhan, ketiga model spline berhasil menggambarkan bahwa hubungan antara horsepower dan mpg tidak linier. Mobil USA menunjukkan non-linearitas paling kuat dan lebih sensitif terhadap perubahan horsepower, disusul mobil Jepang, sementara mobil Eropa cenderung memiliki hubungan yang lebih moderat. Temuan ini konsisten dengan karakteristik umum mobil dari masing-masing origin: mobil USA bertenaga lebih besar dan kurang efisien, mobil Jepang lebih efisien dengan pola konsumsi yang lebih stabil, dan mobil Eropa berada di antara keduanya.
Berdasarkan kurva polynomial basis, terlihat bahwa hubungan antara horsepower dan mpg bersifat non-linear dan menunjukkan pola yang berbeda pada masing-masing kelompok origin. Mobil USA memiliki penurunan mpg paling tajam seiring meningkatnya horsepower; semakin besar tenaga mesin, efisiensi bahan bakar turun secara konsisten hingga mencapai kisaran 10–15 mpg pada horsepower tinggi. Hal ini menunjukkan bahwa mobil asal USA cenderung memiliki tenaga besar namun boros bahan bakar. Mobil Eropa memiliki pola penurunan yang lebih landai dibanding USA, mencerminkan efisiensi yang lebih stabil pada rentang horsepower sedang, sehingga karakteristiknya berada di antara mobil Jepang dan USA. Sementara itu, mobil Jepang menunjukkan efisiensi bahan bakar yang paling tinggi pada horsepower rendah hingga menengah, dengan nilai mpg yang jauh di atas dua origin lainnya. Penurunan mpg memang terjadi seiring bertambahnya horsepower, tetapi tidak sedrastis mobil USA. Perbedaan bentuk kurva polynomial ini menggambarkan karakteristik desain mesin tiap origin: mobil Jepang paling efisien, mobil Eropa moderat, dan mobil USA paling boros pada tenaga besar.
Kurva basis spline menunjukkan pola hubungan non-linear antara horsepower dan mpg yang lebih halus dan fleksibel dibandingkan polynomial. Mobil asal USA, yang ditandai dengan garis hitam, memiliki pola penurunan mpg paling tajam. Pada horsepower rendah, nilai mpg masih cukup tinggi, tetapi semakin meningkatnya tenaga mesin menyebabkan konsumsi bahan bakar turun drastis hingga sekitar 10–15 mpg di horsepower tinggi. Ini menegaskan bahwa mobil Amerika cenderung boros bahan bakar terutama pada mesin berkapasitas besar. Mobil Eropa, dengan garis merah gelap, memperlihatkan pola penurunan yang lebih landai dan stabil. Efisiensinya tidak setinggi mobil Jepang, namun juga tidak turun secepat USA; hal ini mencerminkan karakteristik mobil Eropa yang lebih seimbang antara tenaga dan konsumsi bahan bakar. Sementara itu, kurva mobil Jepang (garis biru navy) menunjukkan efisiensi yang paling tinggi pada horsepower rendah hingga menengah, dengan nilai mpg yang relatif jauh di atas dua origin lainnya. Meskipun mpg turun seiring bertambahnya horsepower, penurunan tersebut tidak sekuat USA, dan bentuk kurvanya menunjukkan adanya perubahan non-linear yang lebih lembut. Secara keseluruhan, model spline ini mempertegas perbedaan karakteristik antar origin: mobil Jepang paling efisien, mobil Eropa moderat, dan mobil USA paling boros pada horsepower tinggi.
1.2 Kesimpulan
Berdasarkan hasil eksplorasi dan pemodelan menggunakan fungsi basis polinomial dan basis spline, terlihat bahwa hubungan antara horsepower dan mpg pada data Auto bersifat jelas non-linear dan berbeda untuk setiap origin. Mobil asal USA menunjukkan pola penurunan efisiensi bahan bakar paling tajam; semakin besar horsepower, nilai mpg menurun drastis hingga mencapai tingkat yang sangat rendah pada horsepower tinggi. Hal ini mencerminkan karakter mobil Amerika yang umumnya bertenaga besar namun boros bahan bakar. Mobil Eropa berada di posisi tengah dengan pola penurunan mpg yang lebih landai dan stabil, menunjukkan kompromi antara performa mesin dan efisiensi. Sementara itu, mobil Jepang memiliki efisiensi tertinggi pada hampir seluruh rentang horsepower yang dimiliki, dengan penurunan mpg yang lebih halus dan tidak sedrastis dua origin lainnya. Ini sejalan dengan karakteristik mobil Jepang yang dikenal hemat bahan bakar.
Dari sisi metode, model polynomial derajat tiga mampu menangkap pola umum penurunan mpg, namun pada beberapa origin (khususnya USA dan Europe) polynomial dapat menghasilkan lengkungan berlebih (overfitting) di bagian tertentu. Basis spline memberikan hasil yang lebih fleksibel dan halus, terutama pada origin dengan variasi horsepower yang lebih besar. Namun, pada origin Japan — yang memiliki rentang horsepower sempit dan pola data yang lebih stabil — kurva polynomial dan spline menghasilkan bentuk yang hampir identik. Secara keseluruhan, basis spline memberikan representasi yang lebih baik untuk pola non-linear, tetapi kedua metode tetap menunjukkan tren yang konsisten.
Dengan demikian, analisis ini memperkuat kesimpulan bahwa horsepower memiliki pengaruh negatif kuat terhadap efisiensi bahan bakar (mpg) untuk semua origin, tetapi besarnya pengaruh dan bentuk kurvanya berbeda antar wilayah. Mobil Jepang paling efisien, mobil Eropa moderat, dan mobil USA paling boros terutama pada tenaga mesin yang lebih besar.