Eksplorasi Hubungan Karat, Harga, dan Kualitas Berlian Menggunakan Visualisasi Data Bivariat pada Dataset Diamonds
Pendahuluan
Industri berlian sangat dipengaruhi oleh karakteristik fisik batu permata seperti ukuran karat, kualitas potongan, warna, dan kejernihan. Variabel-variabel tersebut sering digunakan untuk menentukan nilai pasar sebuah berlian. Oleh karena itu, analisis hubungan antar variabel menjadi penting untuk memahami bagaimana karakteristik tertentu mempengaruhi harga berlian.
Penelitian ini bertujuan mengeksplorasi hubungan antara beberapa variabel utama dalam dataset diamonds, khususnya carat, price, dan cut, menggunakan pendekatan visualisasi data bivariat. Visualisasi dilakukan dengan memanfaatkan paket ggplot2 pada perangkat lunak R untuk menggambarkan pola hubungan antar variabel secara lebih intuitif. Tiga jenis visualisasi digunakan dalam penelitian ini yaitu jitter plot, line plot, dan bubble plot untuk memberikan perspektif yang berbeda dalam memahami hubungan antar variabel.
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
Visualisasi
Jitter Plot
Plot jitter menunjukkan bahwa meskipun terdapat kecenderungan harga
meningkat pada kategori cut yang lebih baik (dari Fair ke Ideal),
rentang harga antar-kategori sangat tumpang tindih. Sebagian besar
berlian berkisar pada harga rendah–menengah, sementara sejumlah kecil
observasi memiliki harga sangat tinggi (outlier). Pola ini
mengindikasikan bahwa cut tidak sepenuhnya menentukan harga; faktor
seperti carat, clarity, dan color kemungkinan besar turut memengaruhi
variasi harga. Oleh karena itu, analisis lanjutan yang mengendalikan
carat dan variabel lain diperlukan untuk menilai pengaruh cut secara
independen.
Line Plot
Plot
trend rata-rata menunjukkan hubungan positif yang kuat antara karat dan
harga berlian: harga rata-rata meningkat seiring bertambahnya karat,
dengan percepatan kenaikan yang tampak setelah sekitar 1 karat dan
puncak/plateau pada karat yang sangat besar. Pola non-linear ini
mengindikasikan bahwa kenaikan ukuran kecil dapat menyebabkan
peningkatan harga yang semakin besar pada rentang karat tertentu. Karena
rata-rata rentan terhadap outlier, dianjurkan untuk mengecek median per
bin dan/atau melakukan transformasi log pada harga serta mengendalikan
variabel kualitas lain (cut, clarity, color) sebelum menyimpulkan
hubungan kausal.
Bubble Plot
Bubble plot yang mengagregasi kombinasi cut dan clarity menunjukkan hubungan positif antara rata-rata karat dan rata-rata harga: kelompok dengan mean carat lebih tinggi umumnya memiliki mean price yang lebih tinggi. Namun, sebagian besar observasi terkonsentrasi pada rentang karat menengah (mean carat ≈ 0.6–0.9), yang terlihat sebagai bubble besar pada area harga menengah. Warna (kategori cut) tersebar merata sehingga tidak ada bukti visual bahwa satu kategori cut saja menentukan harga; faktor ukuran (carat) dan kejernihan (clarity) tampak turut memengaruhi. Analisis regresi (mis. dengan bobot jumlah observasi atau pada level individu) diperlukan untuk menilai pengaruh masing-masing variabel secara independen.
Kesimpulan
Analisis eksploratif pada dataset diamonds menunjukkan bahwa karat (ukuran) adalah penentu utama harga berlian dengan hubungan positif yang kuat dan non-linear. Kategori cut memiliki pengaruh, namun efeknya tumpang tindih dengan variabel lain seperti clarity dan color sehingga tidak terlihat dominan pada visualisasi bivariate. Untuk mengambil kesimpulan yang lebih tegas tentang pengaruh masing-masing faktor, diperlukan analisis multivariat (mis. regresi pada skala log) dan langkah-langkah untuk mengurangi pengaruh outlier.