Eksplorasi Hubungan Karat, Harga, dan Kualitas Berlian Menggunakan Visualisasi Data Bivariat pada Dataset Diamonds

Pendahuluan

Industri berlian sangat dipengaruhi oleh karakteristik fisik batu permata seperti ukuran karat, kualitas potongan, warna, dan kejernihan. Variabel-variabel tersebut sering digunakan untuk menentukan nilai pasar sebuah berlian. Oleh karena itu, analisis hubungan antar variabel menjadi penting untuk memahami bagaimana karakteristik tertentu mempengaruhi harga berlian.

Penelitian ini bertujuan mengeksplorasi hubungan antara beberapa variabel utama dalam dataset diamonds, khususnya carat, price, dan cut, menggunakan pendekatan visualisasi data bivariat. Visualisasi dilakukan dengan memanfaatkan paket ggplot2 pada perangkat lunak R untuk menggambarkan pola hubungan antar variabel secara lebih intuitif. Tiga jenis visualisasi digunakan dalam penelitian ini yaitu jitter plot, line plot, dan bubble plot untuk memberikan perspektif yang berbeda dalam memahami hubungan antar variabel.

## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Visualisasi

Jitter Plot

Plot jitter menunjukkan bahwa meskipun terdapat kecenderungan harga meningkat pada kategori cut yang lebih baik (dari Fair ke Ideal), rentang harga antar-kategori sangat tumpang tindih. Sebagian besar berlian berkisar pada harga rendah–menengah, sementara sejumlah kecil observasi memiliki harga sangat tinggi (outlier). Pola ini mengindikasikan bahwa cut tidak sepenuhnya menentukan harga; faktor seperti carat, clarity, dan color kemungkinan besar turut memengaruhi variasi harga. Oleh karena itu, analisis lanjutan yang mengendalikan carat dan variabel lain diperlukan untuk menilai pengaruh cut secara independen.

Line Plot

Plot trend rata-rata menunjukkan hubungan positif yang kuat antara karat dan harga berlian: harga rata-rata meningkat seiring bertambahnya karat, dengan percepatan kenaikan yang tampak setelah sekitar 1 karat dan puncak/plateau pada karat yang sangat besar. Pola non-linear ini mengindikasikan bahwa kenaikan ukuran kecil dapat menyebabkan peningkatan harga yang semakin besar pada rentang karat tertentu. Karena rata-rata rentan terhadap outlier, dianjurkan untuk mengecek median per bin dan/atau melakukan transformasi log pada harga serta mengendalikan variabel kualitas lain (cut, clarity, color) sebelum menyimpulkan hubungan kausal.

Bubble Plot

Bubble plot yang mengagregasi kombinasi cut dan clarity menunjukkan hubungan positif antara rata-rata karat dan rata-rata harga: kelompok dengan mean carat lebih tinggi umumnya memiliki mean price yang lebih tinggi. Namun, sebagian besar observasi terkonsentrasi pada rentang karat menengah (mean carat ≈ 0.6–0.9), yang terlihat sebagai bubble besar pada area harga menengah. Warna (kategori cut) tersebar merata sehingga tidak ada bukti visual bahwa satu kategori cut saja menentukan harga; faktor ukuran (carat) dan kejernihan (clarity) tampak turut memengaruhi. Analisis regresi (mis. dengan bobot jumlah observasi atau pada level individu) diperlukan untuk menilai pengaruh masing-masing variabel secara independen.

Kesimpulan

Analisis eksploratif pada dataset diamonds menunjukkan bahwa karat (ukuran) adalah penentu utama harga berlian dengan hubungan positif yang kuat dan non-linear. Kategori cut memiliki pengaruh, namun efeknya tumpang tindih dengan variabel lain seperti clarity dan color sehingga tidak terlihat dominan pada visualisasi bivariate. Untuk mengambil kesimpulan yang lebih tegas tentang pengaruh masing-masing faktor, diperlukan analisis multivariat (mis. regresi pada skala log) dan langkah-langkah untuk mengurangi pengaruh outlier.