Tugas Individu Machine Learning

Analisis Prediksi Kuat Tekan Beton Menggunakan Support Vector Regression

Nama

Auro Aurellia Simbolon

NPM

140720250010

Analisis

Support Vector Regression untuk Regresi

Dataset

Concrete Compressive Strength Dataset — UCI Machine Learning Repository

1 Pendahuluan

1.1 Latar Belakang

Beton digunakan hampir di setiap pekerjaan konstruksi karena kuat, mudah dibentuk, dan dapat dipakai untuk berbagai kebutuhan bangunan. Dalam pekerjaan lapangan, salah satu hal yang paling diperhatikan adalah kuat tekan beton, yaitu ukuran kemampuan beton menahan tekanan sebelum mengalami kerusakan.

Kuat tekan beton tidak muncul dari satu bahan saja. Nilainya dipengaruhi oleh beberapa hal, misalnya banyaknya semen, air, agregat, bahan tambahan, dan umur beton saat diuji. Perubahan kecil pada komposisi bahan dapat membuat hasil kuat tekan berbeda. Karena itu, data komposisi beton dapat dimanfaatkan untuk melihat perkiraan kekuatan beton yang mungkin dihasilkan.

Analisis ini dibuat sebagai contoh penggunaan data untuk membantu proses prediksi kuat tekan beton. Tujuannya bukan menggantikan uji laboratorium, melainkan memberi gambaran awal mengenai campuran beton mana yang cenderung menghasilkan kuat tekan lebih tinggi atau lebih rendah.

Pada laporan ini digunakan dua model prediksi. Model pertama adalah Regresi Linear sebagai pembanding sederhana. Model kedua adalah Support Vector Regression (SVR) karena metode ini dapat mengikuti pola data yang tidak selalu lurus atau linear. Hasil kedua model kemudian dibandingkan untuk melihat model mana yang memberikan prediksi lebih dekat dengan nilai aktual.

1.2 Rumusan Masalah

Rumusan masalah dibuat dalam bentuk pertanyaan sederhana agar mudah dipahami, yaitu:

Seperti apa gambaran umum data campuran beton yang digunakan?
Berapa rentang nilai kuat tekan beton pada data tersebut?
Bahan atau informasi apa saja yang terlihat berkaitan dengan kuat tekan beton?
Seberapa dekat hasil perkiraan model dengan nilai kuat tekan beton sebenarnya?
Dari dua pendekatan yang digunakan, model mana yang lebih layak dipakai sebagai alat bantu prediksi?

1.3 Tujuan Analisis

Tujuan umum analisis ini adalah membuat alat bantu prediksi sederhana untuk memperkirakan kuat tekan beton berdasarkan informasi campuran bahan dan umur beton.

Secara lebih rinci, analisis ini bertujuan untuk:

Mengenali isi dataset beton secara ringkas.
Melihat sebaran nilai kuat tekan beton.
Mengetahui pola awal antara bahan penyusun beton dan kuat tekan beton.
Membuat model prediksi yang mudah dibandingkan.
Menilai model berdasarkan besar kesalahan prediksi.
Menentukan model yang hasil prediksinya paling mendekati nilai aktual.

2 Data dan Variabel Penelitian

2.1 Sumber Data

Data pada laporan ini berasal dari Concrete Compressive Strength Dataset yang tersedia di UCI Machine Learning Repository. Data tersebut berisi catatan campuran beton beserta hasil kuat tekannya.

Secara sederhana, setiap baris data menggambarkan satu sampel beton. Di dalamnya terdapat informasi jumlah bahan yang digunakan, umur beton, dan hasil kuat tekan dalam satuan MPa. Dataset ini dipilih karena cocok untuk latihan prediksi: input-nya berupa komposisi beton, sedangkan output yang ingin diperkirakan adalah nilai kuat tekan.

Data diambil langsung melalui tautan resmi UCI menggunakan kode R, sehingga proses analisis dapat dijalankan ulang dari awal.

2.2 Unit Observasi dan Variabel

Unit observasi pada dataset ini adalah sampel campuran beton. Setiap observasi memiliki informasi mengenai komposisi material dan umur beton, kemudian dilengkapi dengan nilai kuat tekan beton.

Deskripsi Variabel Penelitian
Variabel	Peran	Deskripsi	Satuan
cement	Prediktor	Jumlah semen dalam campuran beton	kg/m3
slag	Prediktor	Jumlah blast furnace slag dalam campuran beton	kg/m3
fly_ash	Prediktor	Jumlah fly ash dalam campuran beton	kg/m3
water	Prediktor	Jumlah air dalam campuran beton	kg/m3
superplasticizer	Prediktor	Jumlah superplasticizer dalam campuran beton	kg/m3
coarse_aggregate	Prediktor	Jumlah agregat kasar dalam campuran beton	kg/m3
fine_aggregate	Prediktor	Jumlah agregat halus dalam campuran beton	kg/m3
age	Prediktor	Umur beton saat pengujian	hari
strength	Target/Respons	Nilai kuat tekan beton	MPa

2.3 Karakteristik Awal Dataset

Pada tahap awal, data diimpor ke dalam R, kemudian nama variabel disederhanakan agar lebih mudah digunakan pada proses analisis.

## # A tibble: 6 × 9
##   cement  slag fly_ash water superplasticizer coarse_aggregate fine_aggregate
##    <dbl> <dbl>   <dbl> <dbl>            <dbl>            <dbl>          <dbl>
## 1   540     0        0   162              2.5            1040            676 
## 2   540     0        0   162              2.5            1055            676 
## 3   332.  142.       0   228              0               932            594 
## 4   332.  142.       0   228              0               932            594 
## 5   199.  132.       0   192              0               978.           826.
## 6   266   114        0   228              0               932            670 
## # ℹ 2 more variables: age <dbl>, strength <dbl>

Informasi Umum Dataset
Karakteristik	Nilai
Jumlah observasi	1030
Jumlah variabel	9
Jumlah prediktor	8
Jumlah target	1
Tipe data dominan	Numerik

3 Eksplorasi dan Persiapan Data

3.1 Pemeriksaan Struktur Data

Pemeriksaan struktur data dilakukan untuk memastikan bahwa seluruh variabel memiliki tipe data yang sesuai.

Struktur Variabel Dataset
Variabel	Tipe_Data	Jumlah_Observasi
cement	numeric	1030
slag	numeric	1030
fly_ash	numeric	1030
water	numeric	1030
superplasticizer	numeric	1030
coarse_aggregate	numeric	1030
fine_aggregate	numeric	1030
age	numeric	1030
strength	numeric	1030

Berdasarkan pemeriksaan struktur data, seluruh variabel bertipe numerik. Hal ini sesuai dengan kebutuhan analisis regresi karena model akan memprediksi variabel numerik strength menggunakan delapan prediktor numerik.

3.2 Pemeriksaan Missing Value

Missing value perlu diperiksa agar dapat diketahui apakah diperlukan proses imputasi sebelum pemodelan.

Jumlah Missing Value pada Setiap Variabel
Variabel	Jumlah_Missing
cement	0
slag	0
fly_ash	0
water	0
superplasticizer	0
coarse_aggregate	0
fine_aggregate	0
age	0
strength	0

## [1] 0

Hasil pemeriksaan menunjukkan bahwa tidak terdapat missing value pada dataset. Dengan demikian, data dapat langsung digunakan untuk eksplorasi dan pemodelan tanpa proses imputasi.

3.3 Statistik Deskriptif

Statistik deskriptif digunakan untuk memahami rentang, pusat data, dan variasi setiap variabel.

##      cement           slag          fly_ash           water      
##  Min.   :102.0   Min.   :  0.0   Min.   :  0.00   Min.   :121.8  
##  1st Qu.:192.4   1st Qu.:  0.0   1st Qu.:  0.00   1st Qu.:164.9  
##  Median :272.9   Median : 22.0   Median :  0.00   Median :185.0  
##  Mean   :281.2   Mean   : 73.9   Mean   : 54.19   Mean   :181.6  
##  3rd Qu.:350.0   3rd Qu.:142.9   3rd Qu.:118.27   3rd Qu.:192.0  
##  Max.   :540.0   Max.   :359.4   Max.   :200.10   Max.   :247.0  
##  superplasticizer coarse_aggregate fine_aggregate       age        
##  Min.   : 0.000   Min.   : 801.0   Min.   :594.0   Min.   :  1.00  
##  1st Qu.: 0.000   1st Qu.: 932.0   1st Qu.:731.0   1st Qu.:  7.00  
##  Median : 6.350   Median : 968.0   Median :779.5   Median : 28.00  
##  Mean   : 6.203   Mean   : 972.9   Mean   :773.6   Mean   : 45.66  
##  3rd Qu.:10.160   3rd Qu.:1029.4   3rd Qu.:824.0   3rd Qu.: 56.00  
##  Max.   :32.200   Max.   :1145.0   Max.   :992.6   Max.   :365.00  
##     strength     
##  Min.   : 2.332  
##  1st Qu.:23.707  
##  Median :34.443  
##  Mean   :35.818  
##  3rd Qu.:46.136  
##  Max.   :82.599

Statistik Deskriptif Seluruh Variabel
Variabel	Minimum	Q1	Median	Mean	Q3	Maximum	SD	ash	aggregate
cement	102.00	192.38	272.90	281.17	350.00	540.0	104.51	NA	NA
slag	0.00	0.00	22.00	73.90	142.95	359.4	86.28	NA	NA
fly	NA	NA	NA	NA	NA	NA	NA	0.00	NA
fly	NA	NA	NA	NA	NA	NA	NA	0.00	NA
fly	NA	NA	NA	NA	NA	NA	NA	0.00	NA
fly	NA	NA	NA	NA	NA	NA	NA	54.19	NA
fly	NA	NA	NA	NA	NA	NA	NA	118.27	NA
fly	NA	NA	NA	NA	NA	NA	NA	200.10	NA
fly	NA	NA	NA	NA	NA	NA	NA	64.00	NA
water	121.75	164.90	185.00	181.57	192.00	247.0	21.36	NA	NA
superplasticizer	0.00	0.00	6.35	6.20	10.16	32.2	5.97	NA	NA
coarse	NA	NA	NA	NA	NA	NA	NA	NA	801.00
coarse	NA	NA	NA	NA	NA	NA	NA	NA	932.00
coarse	NA	NA	NA	NA	NA	NA	NA	NA	968.00
coarse	NA	NA	NA	NA	NA	NA	NA	NA	972.92
coarse	NA	NA	NA	NA	NA	NA	NA	NA	1029.40
coarse	NA	NA	NA	NA	NA	NA	NA	NA	1145.00
coarse	NA	NA	NA	NA	NA	NA	NA	NA	77.75
fine	NA	NA	NA	NA	NA	NA	NA	NA	594.00
fine	NA	NA	NA	NA	NA	NA	NA	NA	730.95
fine	NA	NA	NA	NA	NA	NA	NA	NA	779.51
fine	NA	NA	NA	NA	NA	NA	NA	NA	773.58
fine	NA	NA	NA	NA	NA	NA	NA	NA	824.00
fine	NA	NA	NA	NA	NA	NA	NA	NA	992.60
fine	NA	NA	NA	NA	NA	NA	NA	NA	80.18
age	1.00	7.00	28.00	45.66	56.00	365.0	63.17	NA	NA
strength	2.33	23.71	34.44	35.82	46.14	82.6	16.71	NA	NA

Statistik deskriptif menunjukkan bahwa setiap variabel memiliki skala yang berbeda. Misalnya, variabel agregat memiliki nilai ratusan hingga ribuan, sedangkan superplasticizer memiliki rentang yang lebih kecil. Perbedaan skala ini menjadi salah satu alasan pentingnya standardisasi sebelum membangun model SVR.

3.4 Ringkasan Variabel Target

Ringkasan Statistik Kuat Tekan Beton
Statistik	Nilai
Minimum	2.33
Kuartil 1	23.71
Median	34.44
Mean	35.82
Kuartil 3	46.14
Maksimum	82.60
Standar Deviasi	16.71

Variabel strength memiliki rentang nilai yang cukup lebar. Hal ini menunjukkan adanya variasi kuat tekan beton yang dapat dipelajari oleh model prediksi.

3.5 Distribusi Kuat Tekan Beton

Distribusi kuat tekan beton memperlihatkan bahwa data memiliki sebaran nilai yang cukup beragam. Sebagian besar observasi berada pada rentang menengah, sedangkan sebagian lainnya memiliki nilai kuat tekan rendah maupun tinggi.

3.6 Eksplorasi Hubungan Prediktor dengan Target

Untuk memperoleh gambaran awal, dilakukan visualisasi hubungan beberapa prediktor utama dengan variabel target strength.

3.6.1 Hubungan Cement dan Strength

Secara umum, jumlah semen cenderung memiliki hubungan positif dengan kuat tekan beton. Namun pola yang terbentuk tidak sepenuhnya linear, sehingga model non-linear dapat menjadi pilihan yang relevan.

3.6.2 Hubungan Age dan Strength

Umur beton menunjukkan kecenderungan hubungan positif dengan kuat tekan beton. Beton yang diuji pada umur lebih tinggi cenderung memiliki kuat tekan yang lebih besar karena proses pengerasan berlangsung lebih lama.

3.6.3 Hubungan Water dan Strength

Variabel air memiliki pola hubungan yang cenderung berbeda dibandingkan semen dan umur beton. Jumlah air yang terlalu tinggi dapat berkaitan dengan penurunan kuat tekan karena dapat memengaruhi porositas beton.

3.6.4 Hubungan Seluruh Prediktor dengan Strength

Visualisasi seluruh prediktor menunjukkan bahwa beberapa variabel memiliki pola yang tidak sepenuhnya linear terhadap kuat tekan beton. Hal ini mendukung penggunaan metode SVR dengan kernel RBF yang lebih fleksibel dibandingkan Regresi Linear.

3.7 Analisis Korelasi

Analisis korelasi digunakan untuk melihat hubungan linear antarvariabel. Korelasi memberikan gambaran awal, tetapi tidak cukup untuk menjelaskan hubungan non-linear. Oleh karena itu, pemodelan SVR tetap diperlukan untuk mempelajari pola yang lebih kompleks.

3.8 Pembagian Data Training dan Testing

Data dibagi menjadi data training dan data testing dengan proporsi 80:20. Data training digunakan untuk membangun model dan melakukan tuning, sedangkan data testing digunakan untuk evaluasi akhir.

Pembagian Data Training dan Testing
Dataset	Jumlah_Observasi	Proporsi
Training	824	0.8
Testing	206	0.2

Pembagian data dilakukan sebelum pemodelan agar evaluasi akhir dapat dilakukan pada data yang belum digunakan selama proses pelatihan.

3.9 Standardisasi Prediktor

SVR merupakan metode yang sensitif terhadap skala variabel. Oleh karena itu, seluruh prediktor numerik distandardisasi menggunakan recipe. Standardisasi dilakukan berdasarkan data training untuk menghindari kebocoran informasi dari data testing.

4 Rancangan Pemodelan

4.1 Baseline Model: Regresi Linear

Regresi Linear digunakan sebagai model baseline. Model ini mengasumsikan bahwa hubungan antara prediktor dan target dapat dijelaskan melalui fungsi linear. Walaupun sederhana, Regresi Linear berguna sebagai pembanding awal untuk menilai apakah metode yang lebih fleksibel mampu memberikan performa lebih baik.

## ══ Workflow ════════════════════════════════════════════════════════════════════
## Preprocessor: Recipe
## Model: linear_reg()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────────
## 2 Recipe Steps
## 
## • step_zv()
## • step_normalize()
## 
## ── Model ───────────────────────────────────────────────────────────────────────
## Linear Regression Model Specification (regression)
## 
## Computational engine: lm

4.2 Model Utama: Support Vector Regression

Support Vector Regression merupakan metode regresi berbasis konsep Support Vector Machine. SVR berusaha membentuk fungsi prediksi dengan toleransi kesalahan tertentu. Pada analisis ini digunakan kernel radial basis function (RBF) karena kernel tersebut mampu mempelajari pola non-linear pada data.

Parameter yang dituning adalah:

cost, yaitu parameter penalti terhadap kesalahan prediksi.
rbf_sigma, yaitu parameter yang mengontrol bentuk kernel RBF.

## ══ Workflow ════════════════════════════════════════════════════════════════════
## Preprocessor: Recipe
## Model: svm_rbf()
## 
## ── Preprocessor ────────────────────────────────────────────────────────────────
## 2 Recipe Steps
## 
## • step_zv()
## • step_normalize()
## 
## ── Model ───────────────────────────────────────────────────────────────────────
## Radial Basis Function Support Vector Machine Model Specification (regression)
## 
## Main Arguments:
##   cost = tune()
##   rbf_sigma = tune()
## 
## Computational engine: kernlab

4.3 Validasi dan Tuning Parameter

Tuning dilakukan menggunakan 5-fold cross-validation pada data training. Data testing tidak digunakan dalam proses tuning agar hasil evaluasi akhir tetap objektif.

Grid Hyperparameter SVR
cost	rbf_sigma
0.03125	0.00007
0.04549	0.00000
0.06622	0.02154
0.09639	0.00000
0.14031	0.00000
0.20424	0.00046
0.29730	0.14678
0.43277	0.00000
0.62996	0.00000
0.91700	0.00001
1.33484	0.00316
1.94306	1.00000
2.82843	0.00000
4.11721	0.00000
5.99323	0.00018
8.72406	0.05623
12.69921	0.00000
18.48564	0.00000
26.90869	0.00000
39.16971	0.00121
57.01752	0.38312
82.99773	0.00000
120.81591	0.00003
175.86607	0.00000
256.00000	0.00825

4.4 Metrik Evaluasi

Metrik evaluasi yang digunakan adalah RMSE, MAE, dan R-squared.

Metrik Evaluasi Model
Metrik	Keterangan
RMSE	Mengukur akar rata-rata kuadrat kesalahan prediksi; semakin kecil semakin baik
MAE	Mengukur rata-rata nilai absolut kesalahan prediksi; semakin kecil semakin baik
R-squared	Mengukur proporsi variasi target yang dapat dijelaskan model; semakin besar semakin baik

5 Hasil Pemodelan

5.1 Hasil Regresi Linear

Model Regresi Linear dilatih menggunakan data training dan dievaluasi pada data testing.

Performa Regresi Linear pada Data Testing
.metric	.estimator	.estimate	.config
rmse	standard	10.8540	pre0_mod0_post0
mae	standard	8.3945	pre0_mod0_post0
rsq	standard	0.5702	pre0_mod0_post0

5.1.1 Interpretasi Hasil Regresi Linear

Hasil evaluasi Regresi Linear perlu dibaca sebagai performa model pembanding. RMSE dan MAE menunjukkan rata-rata kesalahan prediksi dalam satuan MPa. Jika nilai error masih relatif besar, berarti model linear belum mampu mengikuti seluruh variasi kuat tekan beton. Hal ini wajar karena Regresi Linear hanya membentuk hubungan garis lurus antara prediktor dan target, sedangkan kuat tekan beton dapat dipengaruhi oleh interaksi bahan dan umur beton yang lebih kompleks.

5.2 Hasil Tuning SVR

Sepuluh Kombinasi Parameter Terbaik Berdasarkan RMSE
cost	rbf_sigma	.metric	.estimator	mean	n	std_err	.config
57.0175	0.3831	rmse	standard	6.1283	5	0.2849	pre0_mod21_post0
8.7241	0.0562	rmse	standard	6.4366	5	0.2266	pre0_mod16_post0
256.0000	0.0083	rmse	standard	6.8286	5	0.1651	pre0_mod25_post0
1.9431	1.0000	rmse	standard	7.4085	5	0.2900	pre0_mod12_post0
0.2973	0.1468	rmse	standard	8.0301	5	0.2181	pre0_mod07_post0
39.1697	0.0012	rmse	standard	8.9442	5	0.2095	pre0_mod20_post0
1.3348	0.0032	rmse	standard	10.1362	5	0.0679	pre0_mod11_post0
120.8159	0.0000	rmse	standard	10.8678	5	0.0940	pre0_mod23_post0
0.0662	0.0215	rmse	standard	11.4345	5	0.2064	pre0_mod03_post0
5.9932	0.0002	rmse	standard	11.7560	5	0.1483	pre0_mod15_post0

5.2.1 Interpretasi Hasil Tuning

Tabel tuning menampilkan beberapa kombinasi nilai cost dan rbf_sigma yang dicoba pada proses cross-validation. Kombinasi terbaik dipilih berdasarkan RMSE terkecil karena RMSE mengukur besar kesalahan prediksi. Pemilihan parameter dilakukan pada data training, bukan pada data testing, sehingga evaluasi akhir tetap lebih objektif.

Parameter Terbaik SVR
cost	rbf_sigma	.config
57.01752	0.38312	pre0_mod21_post0

5.3 Hasil SVR pada Data Uji

Model final SVR dibangun menggunakan parameter terbaik, kemudian dievaluasi pada data testing.

Performa SVR pada Data Testing
.metric	.estimator	.estimate	.config
rmse	standard	6.0189	pre0_mod0_post0
mae	standard	3.8755	pre0_mod0_post0
rsq	standard	0.8692	pre0_mod0_post0

5.3.1 Interpretasi Hasil SVR

Model SVR final dievaluasi pada data testing setelah parameter terbaik ditentukan. Nilai RMSE dan MAE menunjukkan seberapa jauh prediksi model dari nilai kuat tekan aktual. Nilai R-squared menunjukkan proporsi keragaman kuat tekan beton yang dapat dijelaskan oleh model. Jika error SVR lebih rendah dan R-squared lebih tinggi dibandingkan Regresi Linear, maka SVR lebih mampu menangkap pola hubungan antara komposisi material, umur beton, dan kuat tekan beton.

5.4 Perbandingan Kinerja Model

Perbandingan Performa Model pada Data Testing
Model	RMSE	MAE	R_Squared
Regresi Linear	10.8540	8.3945	0.5702
Support Vector Regression	6.0189	3.8755	0.8692

5.4.1 Interpretasi Perbandingan Model

Perbandingan model dilakukan dengan prinsip bahwa RMSE dan MAE yang lebih kecil menunjukkan prediksi yang lebih dekat dengan nilai aktual, sedangkan R-squared yang lebih besar menunjukkan kemampuan model yang lebih baik dalam menjelaskan variasi data. Jika SVR unggul pada ketiga metrik tersebut, maka secara empiris SVR menjadi model yang lebih baik untuk kasus prediksi kuat tekan beton pada dataset ini.

5.5 Visualisasi Perbandingan Metrik

5.5.1 Interpretasi Grafik Perbandingan

Grafik ini memudahkan pembacaan hasil evaluasi secara visual. Pada panel RMSE dan MAE, batang yang lebih rendah menunjukkan kesalahan prediksi yang lebih kecil. Pada panel R-squared, batang yang lebih tinggi menunjukkan kemampuan penjelasan model yang lebih baik. Visualisasi ini memperjelas model mana yang lebih unggul tanpa hanya bergantung pada tabel angka.

5.6 Actual vs Predicted Model SVR

5.6.1 Interpretasi Actual vs Predicted

Grafik actual vs predicted digunakan untuk melihat apakah prediksi SVR mendekati nilai sebenarnya. Garis diagonal menjadi acuan prediksi sempurna. Titik yang berada dekat dengan garis tersebut menunjukkan prediksi yang akurat, sedangkan titik yang jauh dari garis menunjukkan prediksi yang masih memiliki selisih cukup besar. Apabila sebagian besar titik mengikuti arah garis diagonal, maka model dapat dikatakan memiliki kemampuan prediksi yang baik.

5.7 Analisis Residual

5.7.1 Interpretasi Residual Plot

Residual adalah selisih antara nilai aktual dan nilai prediksi. Plot residual digunakan untuk melihat apakah kesalahan prediksi membentuk pola tertentu. Residual yang menyebar di sekitar garis nol menunjukkan bahwa kesalahan model relatif seimbang. Jika terdapat pola melengkung atau sebaran residual yang semakin melebar, hal tersebut dapat menjadi indikasi bahwa masih ada pola data yang belum tertangkap sepenuhnya oleh model.

5.7.2 Interpretasi Distribusi Residual

Histogram residual menunjukkan sebaran besar kesalahan prediksi. Residual yang banyak berada di sekitar nol berarti sebagian besar prediksi mendekati nilai aktual. Jika histogram terlalu menyebar atau memiliki ekor panjang, maka terdapat beberapa observasi yang memiliki kesalahan prediksi cukup besar.

6 Pembahasan

6.1 Makna Performa Model

Hasil evaluasi model menunjukkan perbedaan performa antara Regresi Linear dan Support Vector Regression. Regresi Linear berfungsi sebagai model baseline yang mengasumsikan hubungan linear antara prediktor dan kuat tekan beton. Sementara itu, SVR dengan kernel RBF memiliki fleksibilitas lebih tinggi karena mampu mempelajari pola non-linear.

Nilai RMSE dan MAE digunakan untuk menilai besar kesalahan prediksi dalam satuan MPa. Semakin kecil nilai RMSE dan MAE, semakin baik model dalam menghasilkan prediksi yang mendekati nilai aktual. Sementara itu, R-squared digunakan untuk melihat seberapa besar variasi kuat tekan beton yang dapat dijelaskan oleh model.

Pada data testing, Regresi Linear menghasilkan RMSE sebesar 10.854, MAE sebesar 8.394, dan R-squared sebesar 0.57. Sementara itu, SVR menghasilkan RMSE sebesar 6.019, MAE sebesar 3.876, dan R-squared sebesar 0.869.

Berdasarkan nilai tersebut, SVR menurunkan RMSE sekitar 44.55% dan MAE sekitar 53.83% dibandingkan Regresi Linear. Nilai R-squared SVR juga lebih tinggi sebesar sekitar 29.9 poin persentase. Hal ini menunjukkan bahwa SVR memberikan performa prediksi yang lebih baik pada dataset ini.

6.2 Mengapa SVR Relevan untuk Data Ini

Data kuat tekan beton memiliki karakteristik hubungan yang tidak sepenuhnya linear. Pengaruh suatu bahan terhadap kuat tekan beton dapat bergantung pada kombinasi bahan lain, rasio air, jumlah semen, serta umur beton. Pola seperti ini sulit dijelaskan sepenuhnya oleh model linear sederhana.

Secara teori, SVR bekerja dengan mencari fungsi prediksi yang tetap berada dalam batas toleransi kesalahan tertentu. Parameter cost mengatur seberapa besar penalti yang diberikan terhadap kesalahan di luar batas toleransi, sedangkan rbf_sigma mengatur bentuk dan fleksibilitas kernel RBF. Nilai parameter yang terlalu longgar dapat menyebabkan model kurang menangkap pola, sedangkan parameter yang terlalu fleksibel dapat membuat model terlalu mengikuti data training. Karena itu, tuning melalui cross-validation diperlukan untuk mencari keseimbangan antara akurasi dan kemampuan generalisasi.

SVR dengan kernel RBF mampu mempelajari pola yang lebih fleksibel karena kernel dapat memetakan data ke ruang fitur yang lebih kompleks. Oleh karena itu, SVR lebih sesuai ketika hubungan antara variabel prediktor dan target tidak berbentuk garis lurus.

6.3 Implikasi Analitik

Hasil analisis menunjukkan bahwa pendekatan machine learning dapat membantu memprediksi kuat tekan beton berdasarkan komposisi material. Model dengan performa prediksi yang baik dapat digunakan sebagai alat bantu awal dalam memahami bagaimana perubahan komposisi bahan berkaitan dengan kekuatan beton.

Meskipun demikian, hasil model tidak menggantikan pengujian laboratorium. Model prediksi lebih tepat diposisikan sebagai alat pendukung analisis, terutama untuk estimasi awal atau eksplorasi pola pada data historis.

6.4 Keterbatasan Analisis

Beberapa keterbatasan dalam analisis ini adalah sebagai berikut.

Analisis hanya menggunakan variabel yang tersedia pada dataset.
Faktor eksternal seperti kondisi curing, kualitas material, suhu lingkungan, dan metode pencampuran tidak tersedia dalam data.
Tuning SVR dilakukan menggunakan grid terbatas sehingga masih memungkinkan adanya kombinasi parameter lain yang menghasilkan performa lebih baik.
SVR memiliki interpretasi yang lebih sulit dibandingkan Regresi Linear karena model bekerja sebagai metode berbasis kernel.

7 Kesimpulan dan Saran

7.1 Kesimpulan

Berdasarkan hasil analisis, dapat disimpulkan bahwa Concrete Compressive Strength Dataset dapat digunakan untuk membangun model prediksi kuat tekan beton. Dataset terdiri atas variabel numerik yang menggambarkan komposisi material dan umur beton, serta variabel target berupa kuat tekan beton dalam satuan MPa.

Regresi Linear berhasil dibangun sebagai model baseline. Namun, karena hubungan antara komposisi beton dan kuat tekan beton tidak sepenuhnya linear, performa model linear cenderung lebih terbatas. Support Vector Regression dengan kernel RBF memberikan hasil prediksi yang lebih baik dibandingkan Regresi Linear berdasarkan metrik RMSE, MAE, dan R-squared.

Dengan demikian, SVR dapat dinyatakan sebagai model yang lebih sesuai untuk memprediksi kuat tekan beton pada dataset ini. Keunggulan SVR terutama terlihat dari kemampuannya dalam menangkap pola non-linear pada hubungan antara prediktor dan variabel target.

7.2 Saran

Untuk pengembangan analisis berikutnya, beberapa saran yang dapat dilakukan adalah sebagai berikut.

Mencoba metode machine learning lain seperti Random Forest, Gradient Boosting, atau Neural Network sebagai pembanding tambahan.
Menggunakan skema validasi berulang untuk memperoleh evaluasi yang lebih stabil.
Memperluas rentang hyperparameter tuning pada model SVR.
Menambahkan variabel lain apabila tersedia, seperti kondisi curing, suhu lingkungan, atau kualitas bahan beton.

8 Referensi

UCI Machine Learning Repository. Concrete Compressive Strength Dataset. https://archive.ics.uci.edu/dataset/165/concrete+compressive+strength

Yeh, I. C. (1998). Modeling of strength of high-performance concrete using artificial neural networks. Cement and Concrete Research, 28(12), 1797–1808.

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning with Applications in R (2nd ed.). Springer.

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer.

Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20, 273–297.

Vapnik, V. N. (1995). The Nature of Statistical Learning Theory. Springer.

Smola, A. J., & Schölkopf, B. (2004). A tutorial on support vector regression. Statistics and Computing, 14, 199–222.

Chang, C. C., & Lin, C. J. (2011). LIBSVM: A Library for Support Vector Machines. ACM Transactions on Intelligent Systems and Technology, 2(3), 1–27.

Karatzoglou, A., Smola, A., Hornik, K., & Zeileis, A. (2004). kernlab: An S4 Package for Kernel Methods in R. Journal of Statistical Software, 11(9), 1–20.

Kuhn, M., & Silge, J. (2022). Tidy Modeling with R. O’Reilly Media.

Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

Wickham, H., Çetinkaya-Rundel, M., & Grolemund, G. (2023). R for Data Science (2nd ed.). O’Reilly Media.

R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing.

Analisis Prediksi Kuat Tekan Beton Dengan Support Vector Regression SVR