Dalam perdagangan berlian, harga sering diasosiasikan dengan atribut kualitas seperti potongan (cut), warna, dan kejernihan. Secara umum, potongan dengan label seperti Ideal atau Premium diasumsikan memiliki nilai jual yang lebih tinggi. Namun dalam praktiknya, harga berlian terbentuk dari interaksi berbagai karakteristik fisik, dan tidak selalu mudah mengidentifikasi faktor mana yang benar-benar dominan.Dengan jumlah data yang sangat besar, persepsi dapat berbeda dari kenyataan. Tanpa visualisasi yang tepat, perbedaan harga antar kategori bisa tampak signifikan padahal sebenarnya terjadi tumpang tindih yang luas. Analisis ini dimulai dengan menguji satu asumsi sederhana, yakni apakah kualitas potongan benar-benar membedakan harga secara nyata di pasar?
Meskipun kualitas potongan merupakan salah satu atribut penting dalam penilaian berlian, hasil eksplorasi awal perlu dibaca secara hati-hati. Apabila pola yang terbentuk tidak menunjukkan pemisahan harga yang kuat, maka penting untuk mempertimbangkan kemungkinan bahwa variabel lain memiliki kontribusi yang lebih signifikan dalam pembentukan harga. Oleh karena itu, analisis tidak berhenti pada evaluasi kategori potongan, melainkan diperluas untuk mengidentifikasi variabel numerik yakni berat berlian (carat) terhadap harga.
Analisis ini bertujuan memberikan gambaran yang lebih objektif mengenai bagaimana harga berlian terdistribusi pada setiap kategori kualitas potongan (cut), serta sejauh mana perbedaan tersebut dapat diamati melalui pola visual yang terbentuk.
Seiring dengan itu, cakupan analisis diperluas untuk mengamati hubungan antara berat berlian (carat) dan harga. Perluasan ini dilakukan untuk melihat bagaimana pola hubungan numerik antara ukuran dan harga terbentuk dalam data, sehingga struktur pembentukan harga dapat dipahami secara lebih utuh. Pendekatan dilakukan secara bertahap agar interpretasi yang dihasilkan bersifat kontekstual dan tidak bergantung pada satu sudut pandang visual saja. Dengan demikian, pembacaan data diarahkan pada pemahaman pola yang muncul, bukan sekadar pada asumsi awal mengenai atribut tertentu.
Jitter plot digunakan untuk menampilkan setiap observasi harga berlian dalam masing-masing kategori kualitas potongan (cut). Karena jumlah data pada dataset diamonds sangat besar, titik-titik diberi transparansi agar kepadatan tetap dapat terbaca dan tidak menumpuk menjadi satu blok visual. Teknik jitter juga menambahkan sedikit pergeseran horizontal sehingga distribusi harga dalam tiap kategori terlihat lebih jelas.
p1 <- ggplot(diamonds, aes(x = cut, y = price)) +
geom_jitter(alpha = 0.08, width = 0.25, color = "#7b1d26") +
scale_y_continuous(labels = comma) +
labs(title = "Sebaran Harga Berlian Berdasarkan Kualitas Potongan",
x = "Kualitas Potongan (Cut)",
y = "Harga (USD)"
) +
theme_minimal(base_size = 13)
ggplotly(p1, tooltip = "text")Dari visualisasi tersebut terlihat bahwa seluruh kategori potongan—mulai dari Fair hingga Ideal—memiliki rentang harga yang sangat lebar. Pada kategori Ideal, memang terdapat sejumlah titik pada level harga tinggi, yang secara kasat mata bisa memperkuat asumsi bahwa potongan terbaik cenderung bernilai lebih mahal. Namun ketika diamati lebih saksama, pola serupa juga muncul pada kategori Premium dan Very Good. Bahkan kategori Good dan Fair tetap menunjukkan keberadaan berlian dengan harga yang cukup tinggi. Kepadatan titik paling besar berada pada kisaran harga rendah hingga menengah di semua kategori. Artinya, sebagian besar transaksi berlian terjadi pada rentang harga tersebut, terlepas dari label potongannya. Sementara itu, titik-titik pada harga sangat tinggi jumlahnya jauh lebih sedikit dan tersebar di berbagai kategori, bukan terkonsentrasi hanya pada satu tingkat kualitas tertentu. Hal yang paling penting dari jitter plot ini adalah tingkat tumpang tindih harga antar kategori. Tidak terlihat pemisahan visual yang tegas di mana satu kategori memiliki wilayah harga eksklusif yang tidak dimiliki kategori lain. Rentang harga antar kategori saling beririsan secara signifikan. Kondisi ini menunjukkan bahwa meskipun potongan berkaitan dengan kualitas, harga di pasar tidak terbentuk secara linier berdasarkan label cut saja.
Bagi calon pembeli atau investor, implikasinya cukup jelas. Label potongan dapat menjadi salah satu pertimbangan, namun tidak dapat digunakan sebagai indikator tunggal untuk memperkirakan kisaran harga. Variasi harga di dalam satu kategori bahkan bisa lebih besar dibandingkan perbedaan rata-rata antar kategori. Oleh karena itu, interpretasi harga memerlukan pembacaan yang lebih menyeluruh dan tidak semata-mata bergantung pada klasifikasi kualitas potongan.
Jitter plot ini berfungsi sebagai langkah awal untuk melihat struktur distribusi secara rinci pada setiap observasi, sebelum analisis dilanjutkan dengan visualisasi yang merangkum pola tersebut secara lebih sistematis.
Berbeda dengan jitter plot yang menampilkan setiap titik harga secara individual, boxplot merangkum distribusi harga dalam masing-masing kategori potongan ke dalam ukuran statistik utama, yaitu median, kuartil bawah, kuartil atas, serta nilai ekstrem. Visualisasi ini membantu melihat struktur distribusi secara lebih terorganisir, terutama ketika jumlah data sangat besar.
p2 <- ggplot(diamonds, aes(
x = cut,
y = price,
fill = cut,
text = paste(
"Cut:", cut,
"<br>Harga:", comma(price)
)
)) +
geom_boxplot(alpha = 0.75, outlier.alpha = 0.25, width = 0.6) +
scale_fill_manual(values = c(
"Fair" = "#8c2f39",
"Good" = "#c8553d",
"Very Good" = "#f28f3b",
"Premium" = "#588157",
"Ideal" = "#344e41"
)) +
scale_y_continuous(labels = scales::comma) +
labs(title = "Perbandingan Distribusi Harga antar Kategori Cut", x = "Kualitas Potongan (Cut)",
y = "Harga (USD)",
fill = "Kategori Cut") +
theme_minimal(base_size = 13) +
theme(legend.position = "right",legend.title = element_text(face = "bold"),
plot.title = element_text(face = "bold")
)
ggplotly(p2, tooltip = "text")Dari boxplot terlihat bahwa median harga antar kategori tidak menunjukkan perbedaan yang ekstrem. Meskipun kategori seperti Ideal dan Premium memiliki median yang cenderung lebih tinggi dibandingkan Fair, jaraknya relatif tidak terlalu jauh jika dibandingkan dengan lebar distribusi dalam masing-masing kategori. Ini menunjukkan bahwa variasi harga di dalam satu kategori cukup besar.
Kotak (interquartile range) pada hampir semua kategori terlihat cukup tinggi, yang berarti 50% data harga berada dalam rentang yang luas. Kondisi ini menegaskan bahwa bahkan dalam satu tingkat kualitas potongan yang sama, harga berlian dapat bervariasi secara signifikan. Dengan kata lain, dua berlian dengan label cut yang sama belum tentu memiliki kisaran harga yang berdekatan. Selain itu, garis median antar kategori terlihat relatif berdekatan jika dibandingkan dengan panjang whisker dan banyaknya outlier. Banyak titik ekstrem muncul di bagian atas distribusi pada hampir seluruh kategori. Artinya, keberadaan berlian dengan harga sangat tinggi tidak terbatas pada satu kategori potongan tertentu.
Bagi pembaca non-teknis, implikasinya sederhana namun penting: label kualitas potongan memang berperan dalam persepsi nilai, tetapi distribusi harga menunjukkan bahwa pasar tidak membentuk harga secara eksklusif berdasarkan kategori tersebut. Rentang harga dalam satu kategori bahkan dapat melampaui perbedaan median antar kategori.
Jika jitter plot sebelumnya menunjukkan detail tiap observasi, boxplot memberikan gambaran struktur distribusi yang lebih ringkas dan terukur. Dari sini mulai terlihat bahwa asumsi “cut terbaik selalu jauh lebih mahal” tidak sepenuhnya tercermin dalam penyebaran harga aktual di data.
Jika boxplot merangkum distribusi melalui median dan kuartil, violin plot menambahkan informasi mengenai kepadatan distribusi. Lebar bentuk “violin” pada setiap level harga menunjukkan di mana data lebih banyak terkonsentrasi. Dengan demikian, kita tidak hanya melihat seberapa lebar rentangnya, tetapi juga di bagian mana harga paling sering muncul.
Pada visualisasi ini terlihat bahwa seluruh kategori potongan memiliki kepadatan tertinggi pada rentang harga rendah hingga menengah. Bagian bawah violin tampak lebih lebar dibandingkan bagian atas, yang mengindikasikan bahwa mayoritas transaksi berlian berada pada kisaran harga tersebut. Seiring meningkatnya harga, bentuk violin semakin menyempit, menunjukkan bahwa jumlah berlian dengan harga sangat tinggi relatif lebih sedikit.
p3 <- ggplot(diamonds, aes(x = cut, y = price, fill = cut)) +
geom_violin(alpha = 0.75, trim = FALSE) +
scale_fill_manual(values = c(
"Fair" = "#8c2f39",
"Good" = "#c8553d",
"Very Good" = "#f28f3b",
"Premium" = "#588157",
"Ideal" = "#344e41"
)) +
scale_y_continuous(labels = scales::comma) +
labs(title = "Struktur Distribusi Harga pada Setiap Kategori Cut", x = "Kualitas Potongan (Cut)",
y = "Harga (USD)",
fill = "Kategori Cut"
) +
theme_minimal(base_size = 13) +
theme(
legend.position = "right",
legend.title = element_text(face = "bold"),
plot.title = element_text(face = "bold")
)
p3
Perbedaan bentuk antar kategori memang ada, namun tidak membentuk
pemisahan distribusi yang tajam. Misalnya, kategori Ideal dan Premium
menunjukkan distribusi yang sedikit lebih melebar pada rentang harga
menengah hingga tinggi. Namun pola kepadatan tersebut masih bertumpang
tindih dengan kategori lainnya. Artinya, wilayah harga yang “padat”
tidak eksklusif dimiliki oleh satu kategori potongan saja.
Hal lain yang dapat diperhatikan adalah kesamaan bentuk distribusi antar kategori. Hampir semua menunjukkan pola mirip: kepadatan tinggi di bagian bawah dan ekor memanjang ke arah harga yang lebih tinggi. Ini mengisyaratkan bahwa struktur pasar berlian cenderung memiliki banyak produk pada harga relatif terjangkau, sementara produk dengan harga sangat tinggi jumlahnya jauh lebih terbatas, terlepas dari kualitas potongannya.
Bagi calon pembeli atau investor, violin plot membantu memahami dinamika pasar secara lebih realistis. Label potongan memang berkaitan dengan persepsi kualitas, namun distribusi harga memperlihatkan bahwa sebagian besar transaksi tetap berada dalam kisaran harga yang serupa antar kategori. Dengan demikian, keputusan pembelian sebaiknya mempertimbangkan atribut lain yang mungkin berperan dalam menentukan nilai akhir, karena variasi harga dalam satu kategori sangat besar dan kepadatannya saling beririsan.
Dalam perdagangan berlian, berat (carat) sering dianggap sebagai salah satu atribut yang berkaitan erat dengan harga. Secara umum, ukuran yang lebih besar diasosiasikan dengan nilai yang lebih tinggi. Namun dalam konteks data yang besar dan kompleks, hubungan tersebut perlu dilihat secara langsung melalui pola distribusi aktual. Untuk mengevaluasi hubungan antara berat dan harga, digunakan scatter plot yang memetakan setiap berlian sebagai satu titik berdasarkan dua variabel numerik. Pendekatan ini memungkinkan seluruh observasi tetap terlihat tanpa proses peringkasan, sehingga pola hubungan dapat diamati secara apa adanya.
Scatter plot antara carat dan harga memperlihatkan pola peningkatan yang sangat jelas. Titik-titik membentuk tren naik yang konsisten dari kiri bawah ke kanan atas, yang menunjukkan bahwa kenaikan berat berlian diikuti oleh kenaikan harga. Namun ketika diperhatikan lebih saksama, bentuk pola tersebut tidak menyerupai garis lurus sempurna.
ggplot(diamonds, aes(x = carat, y = price)) +
geom_point(alpha = 0.05, color = "#4b4924") +
scale_y_continuous(labels = scales::comma) +
labs(title = "Hubungan Berat Berlian (Carat) dengan Harga", x = "Berat (Carat)",
y = "Harga (USD)"
) +
theme_minimal(base_size = 13)Pada rentang carat kecil (misalnya di bawah 1 carat), kenaikan harga terlihat relatif bertahap. Akan tetapi, ketika carat mulai meningkat, kenaikan harga menjadi jauh lebih tajam. Titik-titik pada sisi kanan grafik menunjukkan lonjakan harga yang tidak lagi proporsional secara linear. Pola ini mengindikasikan bahwa hubungan antara berat dan harga cenderung bersifat non-linier, di mana tambahan berat pada ukuran besar berdampak lebih besar terhadap harga dibandingkan tambahan berat pada ukuran kecil.
Selain itu, terlihat bahwa variasi harga semakin melebar seiring bertambahnya carat. Pada carat rendah, titik-titik relatif lebih terkonsentrasi dalam rentang harga yang sempit. Namun pada carat tinggi, penyebaran harga menjadi jauh lebih luas. Untuk berat yang sama, terdapat selisih harga yang signifikan. Kondisi ini menunjukkan bahwa ketidakpastian harga meningkat pada ukuran berlian yang lebih besar. Dalam istilah statistik, pola seperti ini mencerminkan peningkatan variasi seiring bertambahnya nilai variabel independen.
Dari sudut pandang pasar, pola tersebut cukup masuk akal. Berlian berukuran besar jumlahnya lebih terbatas dan biasanya berada pada segmen premium, sehingga perbedaan kecil dalam atribut lain dapat berdampak besar terhadap harga akhir. Sebaliknya, pada ukuran kecil, struktur harga cenderung lebih terkonsolidasi.
Secara keseluruhan, scatter plot ini menunjukkan bahwa berat memiliki hubungan yang kuat dan konsisten dengan harga, dengan pola kenaikan yang semakin tajam pada ukuran besar serta variasi harga yang ikut meningkat. Visualisasi ini memberikan gambaran yang lebih tegas dibandingkan analisis kategori sebelumnya, karena pola hubungan numeriknya terlihat secara langsung tanpa peringkasan.
Secara keseluruhan, rangkaian visualisasi ini menunjukkan bahwa pembentukan harga berlian tidak dapat dipahami hanya dari satu sudut pandang. Ketika analisis dimulai dari kualitas potongan (cut), baik melalui jitter plot, boxplot, maupun violin plot, terlihat bahwa meskipun terdapat perbedaan distribusi harga antar kategori, rentangnya saling bertumpang tindih secara luas. Median antar kategori relatif berdekatan jika dibandingkan dengan variasi harga di dalam masing-masing kategori. Hal ini menunjukkan bahwa label potongan memang berkaitan dengan persepsi kualitas, tetapi tidak secara otomatis menciptakan batas harga yang tegas di pasar.
Pendekatan kemudian diperluas dengan mengamati hubungan antara berat berlian (carat) dan harga melalui scatter plot. Pada visualisasi ini, pola hubungan terlihat lebih terstruktur. Harga cenderung meningkat seiring bertambahnya carat, dengan kecenderungan kenaikan yang semakin tajam pada ukuran yang lebih besar. Selain itu, variasi harga juga semakin melebar pada carat tinggi, yang menunjukkan bahwa pada segmen ukuran besar, harga menjadi lebih beragam.
Jika dibaca secara runtut, visualisasi pertama membantu memahami distribusi harga berdasarkan kategori kualitas, sedangkan visualisasi terakhir memperlihatkan pola hubungan numerik yang lebih konsisten. Dari sini dapat disimpulkan bahwa struktur harga berlian dalam data mencerminkan kombinasi karakteristik, di mana kategori potongan menunjukkan distribusi yang saling beririsan, sementara hubungan antara berat dan harga tampak lebih sistematis secara visual.
Bagi calon pembeli maupun investor, interpretasi ini memberikan perspektif yang lebih realistis. Label kualitas potongan tetap relevan sebagai indikator mutu, tetapi kisaran harga dalam setiap kategori sangat luas. Sementara itu, berat berlian menunjukkan pola kenaikan harga yang lebih jelas, meskipun tetap disertai variasi yang cukup besar. Dengan demikian, pembacaan harga yang lebih komprehensif perlu mempertimbangkan distribusi dan pola hubungan secara menyeluruh, bukan hanya berdasarkan satu atribut tertentu.