Pendahuluan

Dataset diamonds yang tersedia dalam R memuat informasi tentang hampir 54.000 berlian, meliputi harga (price), berat (carat), kualitas potongan (cut), warna (color), kejelasan (clarity), serta ukuran fisik (depth, table, x, y, z). Data ini memiliki tantangan tersendiri: ukuran besar, adanya outlier dimensi (nilai 0), dan distribusi harga yang sangat menceng (eksponensial). Oleh karena itu, visualisasi yang tepat diperlukan untuk mengungkap pola tersembunyi. Empat visualisasi bivariat berikut dirancang untuk menjawab pertanyaan-pertanyaan:

  1. Apakah terdapat kisaran proporsi depth dan table yang paling sering muncul sebagai standar umum di pasar berlian?
  2. Apakah rata rata harga berlian berbeda antar kategori cut dan apakah cut terbaik selalu memiliki harga rata rata tertinggi?
  3. Bagaimana distribusi harga berlian pada setiap tingkat clarity dan apakah terdapat tumpang tindih harga antar kategori?
  4. Bagaimana pola variasi individu berlian berdasarkan kombinasi color dan carat serta bagaimana pola tersebut dapat dimanfaatkan untuk segmentasi pasar?

Data dan Persiapan

Untuk efisiensi dan menghindari pengaruh outlier dan overplotting, kita mengambil sampel 2000 berlian yang telah dibersihkan dari dimensi tidak valid (x, y, z > 0 dan y < 20). Sampel ini akan digunakan untuk semua visualisasi.

set.seed(42)
diamonds_clean <- diamonds %>%
  filter(x > 0, y > 0, z > 0, y < 20) %>%
  sample_n(2000)

Berikut adalah cuplikan data yang akan dianalisis:

diamonds_clean %>%
  select(carat, cut, color, clarity, depth, table, price) %>%
  head(6) %>%
  knitr::kable(
    format = "html",
    col.names = c("Carat", "Cut", "Color", "Clarity", "Depth (%)", "Table (%)", "Price (USD)"),
    caption = "Enam baris pertama data diamonds_clean",
    align = "c"
  )
Enam baris pertama data diamonds_clean
Carat Cut Color Clarity Depth (%) Table (%) Price (USD)
0.33 Ideal E VS1 62.3 56 850
1.02 Ideal E SI2 63.0 57 4478
0.61 Ideal D SI1 62.1 55 1752
0.70 Ideal J SI2 60.9 57 1832
1.01 Very Good G VS1 60.9 60 6669
1.29 Fair G I1 66.0 58 4277

Melihat Standar Industri pada Kepadatan Kedalaman (depth) dan Lebar Meja (table)

Lebar tabel adalah persentase ukuran permukaan datar paling atas berlian dibandingkan dengan diameter keseluruhannya yang memengaruhi bagaimana cahaya masuk dan dipantulkan sehingga berpengaruh pada kilau. Kedalaman atau depth adalah persentase tinggi total berlian dari bagian paling atas hingga ujung bawah dibandingkan dengan diameter keseluruhannya yang menunjukkan seberapa “tinggi” proporsi berlian dan berpengaruh pada pantulan cahaya serta kilau yang dihasilkan. 2D Density Plot berikut bertujuan untuk menjawab pertanyaan “Apakah ada proporsi ideal yang menjadi acuan pemotong berlian?”

ggplot(diamonds_clean, aes(x = depth, y = table)) +
  stat_density_2d(aes(fill = after_stat(level)), geom = "polygon") +
  scale_fill_viridis_c() +
  scale_x_continuous(limits = c(55, 70), breaks = seq(55, 70, by = 2)) +
  scale_y_continuous(limits = c(50, 70), breaks = seq(50, 70, by = 2)) +
  labs(
    title = "Kepadatan Hubungan Kedalaman dan Lebar Tabel",
    subtitle = "Menemukan standar proporsi Sweet Spot bagi produsen berlian",
    x = "Total Kedalaman (%)",
    y = "Lebar Tabel (%)"
  ) +
  theme_minimal()

Grafik ini memperlihatkan peta kepadatan dua ukuran yaitu total kedalaman pada sumbu horizontal dan lebar tabel pada sumbu vertikal, warna yang lebih terang menandakan kombinasi nilai yang paling sering muncul dalam dataset diamonds, pusat kepadatan tampak sekitar kedalaman 61 sampai 63 persen dan lebar tabel 55 sampai 57 persen sehingga area tersebut menjadi sweet spot umum yang sering ditemui; bagi produsen atau pemotong berlian mengarahkan proporsi ke kisaran ini dapat membantu mencapai proporsi yang lazim di pasar, bagi pembeli nilai tersebut berguna sebagai panduan awal namun sebaiknya dipadukan dengan pemeriksaan cut grade ukuran dan atribut lain, dan bagi analis disarankan memecah data menurut kategori cut dan carat agar rekomendasi menjadi lebih spesifik dan dapat langsung digunakan.

Rata-rata Harga per Kualitas Potongan

Kualitas potongan adalah penilaian terhadap seberapa baik proporsi dan presisi pemotongan berlian dalam memantulkan cahaya, sedangkan harga adalah nilai jual berlian dalam satuan mata uang yang mencerminkan kombinasi karakteristik seperti potongan, ukuran, warna, dan kejernihan. Barplot berikut bertujuan untuk menjawab pertanyaan “Apakah potongan yang lebih baik (misal Ideal) selalu lebih mahal secara rata-rata?”

diamonds_clean %>%
  group_by(cut) %>%
  summarise(mean_price = mean(price), .groups = "drop") %>%
  ggplot(aes(x = cut, y = mean_price, fill = cut)) +
  geom_col(show.legend = FALSE) +
  scale_fill_manual(values = c("Fair" = "#E41A1C",    
                               "Good" = "#999999",
                               "Very Good" = "#999999",
                               "Premium" = "#999999",
                               "Ideal" = "#999999")) +
  labs(title = "Rata-rata Harga Berlian per Kategori Potongan",
       x = "Potongan (cut)", y = "Rata-rata Harga (USD)") +
  theme_minimal(base_size = 12)

Grafik batang ini memperlihatkan rata-rata harga berlian untuk setiap kategori potongan dengan tampilan bahwa potongan Fair memiliki rata-rata harga tertinggi diikuti Premium, Good, Very Good, dan Ideal yang rata-ratanya paling rendah, namun angka rata-rata semata tidak membuktikan bahwa potongan yang lebih baik selalu lebih mahal karena distribusi ukuran dan atribut lain seperti carat atau clarity dapat memengaruhi rata-rata sehingga kelompok Fair bisa saja terdorong oleh lebih banyak berlian berukuran besar. Secara praktis, informasi ini dapat dimanfaatkan oleh pelaku pasar, di mana pelaku pasar dapat memanfaatkan kategori Ideal dan Very Good sebagai opsi kompetitif untuk menawarkan harga lebih terjangkau dengan kualitas visual yang tetap baik, sementara kategori Premium dan Fair dapat diposisikan pada segmen harga lebih tinggi dengan strategi diferensiasi yang menekankan karakteristik tertentu.

Sebaran Harga per Kategori Kejelasan (Clarity)

Clarity adalah tingkat kejernihan berlian yang menunjukkan seberapa sedikit atau banyaknya cacat alami dan inklusi di dalam maupun di permukaannya yang memengaruhi tampilan visual dan nilai jualnya dengan urutan kategori dari kualitas tertinggi hingga terendah yaitu IF, VVS1, VVS2, VS1, VS2, SI1, SI2, dan I1. Boxplot berikut ditujukan untuk “Bagaimana distribusi harga yang sebenarnya? Apakah ada tumpang tindih antar kategori?”

ggplot(diamonds_clean, aes(x = clarity, y = price, fill = clarity)) +
  geom_boxplot(alpha = 0.7, outlier.size = 0.5) +
  scale_fill_brewer(palette = "Spectral") +
  scale_y_log10(labels = dollar_format()) +
  labs(
    title = "Distribusi Harga Berlian per Tingkat Kejelasan",
    subtitle = "Sumbu Y dalam skala log agar distribusi menceng lebih mudah dibaca",
    x = "Kejelasan (clarity)", y = "Harga (USD)"
  ) +
  theme_minimal() +
  theme(legend.position = "none")

Boxplot ini menunjukkan sebaran harga berlian menurut tingkat kejernihan dengan sumbu harga dalam skala log sehingga perbedaan besar menjadi lebih mudah dilihat, terlihat bahwa median harga berbeda antar kategori namun kotak dan whisker banyak yang saling tumpang tindih yang berarti ada overlap harga antar kategori, beberapa kategori memperlihatkan ekor atas yang lebih panjang artinya terdapat berlian dengan harga sangat tinggi di dalamnya sementara beberapa titik terisolasi adalah outlier. Outlier pada plot terlihat terutama di bawah whisker pada kategori SI2 dengan harga perkiraan di bawah sekitar 500 dolar AS dan beberapa outlier di atas whisker muncul pada kategori SI2 dan VVS1 dengan harga yang diperkirakan melebihi sekitar 10 000 dolar AS, sedangkan kategori lain tidak menampilkan outlier yang mencolok secara visual. informasi ini berguna untuk pengelolaan inventori dan strategi harga karena memberi petunjuk segmen kejernihan mana yang menyimpan lebih banyak batu bernilai tinggi serta menegaskan pentingnya mengontrol ukuran carat ketika membandingkan harga antar kategori agar keputusan penetapan harga dan penempatan produk menjadi lebih tepat.

Sebaran Titik Individu Berdasarkan Warna dan Berat Berlian

Berikut adalah jitter plot dengan variabel yang berbeda, yaitu warna (color) sebagai variabel kategorik dan berat (carat) sebagai variabel numerik. Warna pada berlian adalah tingkat keberadaan rona kekuningan atau kecokelatan pada batu yang dinilai dari D hingga J dalam dataset ini, di mana D paling tidak berwarna dan semakin ke J semakin terlihat warna. Sedangkan carat adalah satuan berat berlian yang menunjukkan seberapa besar ukuran fisiknya. Jitter plot ini ditujukan untuk menjawab pertanyaan “Bagaimana sebaran berat berlian (carat) berdasarkan tingkat warna (color)?”

ggplot(diamonds_clean, aes(x = color, y = carat, color = color)) +
  geom_jitter(alpha = 0.5, width = 0.2, size = 1.5, show.legend = FALSE) +
  scale_color_brewer(palette = "Dark2") +
  labs(
    title = "Sebaran Berat Berlian per Kategori Warna",
    subtitle = "Setiap titik mewakili satu berlian",
    x = "Warna (color)", y = "Berat (carat)"
  ) +
  theme_minimal(base_size = 12)

Grafik jitter ini menampilkan sebaran berat berlian dalam satuan carat untuk setiap kategori warna dari D hingga J dengan setiap titik mewakili satu Grafik jitter ini menampilkan sebaran berat berlian dalam satuan carat untuk setiap kategori warna dari D hingga J dengan setiap titik mewakili satu berlian sehingga pola distribusi dapat terlihat secara langsung. Warna D dan E cenderung terkonsentrasi pada berat kecil hingga menengah sedangkan warna I dan J menunjukkan penyebaran yang lebih luas serta keberadaan beberapa berlian berukuran besar termasuk satu berlian warna J dengan berat sekitar 5 carat. Informasi ini dapat dimanfaatkan secara langsung dalam strategi mengelompokkan target produk, yaitu memfokuskan warna D dan E pada pasar yang mengutamakan kualitas warna dengan ukuran standar, sementara warna I dan J dapat diposisikan untuk segmen yang mencari ukuran besar dengan nilai yang lebih kompetitif, sehingga keputusan stok dan pemasaran menjadi lebih terarah.

Kesimpulan

Berdasarkan empat visualisasi bivariat yang telah disajikan, dapat disimpulkan bahwa pola dalam dataset diamonds tidak dapat dijelaskan hanya oleh satu variabel saja karena harga dan karakteristik berlian merupakan hasil interaksi berbagai atribut secara simultan. Kepadatan depth dan table menunjukkan adanya kisaran proporsi yang paling umum digunakan di pasar sebagai standar praktis, namun analisis rata rata harga per cut memperlihatkan bahwa kualitas potongan tidak otomatis berbanding lurus dengan harga. Distribusi harga berdasarkan clarity memperlihatkan adanya tumpang tindih antar kategori yang menandakan bahwa segmen pasar tidak sepenuhnya terpisah secara tegas, sementara jitter plot color dan carat menegaskan adanya perbedaan pola ukuran pada tiap tingkat warna yang dapat dimanfaatkan untuk strategi segmentasi produk. Secara keseluruhan, visualisasi ini menunjukkan bahwa pengambilan keputusan yang lebih akurat dalam industri berlian perlu mempertimbangkan kombinasi variabel seperti carat, cut, color, clarity, depth, dan table secara bersama sama, bukan secara parsial, sehingga strategi harga, stok, dan positioning produk dapat disusun secara lebih tepat dan berbasis data.