Analisis Pola dan Visualisasi Statistik pada Karakteristik Pasar Berlian

Visualisasi data merupakan salah satu cara penting untuk menyajikan informasi secara ringkas dan mudah dipahami, terutama bagi audiens awam. Visualisasi data ini bisa untuk tipe data kategorik dan data kontinu Namun, apa itu data kategorik dan data kontinu? Data kategorik adalah data yang merepresentasikan kategori atau kelas digunakan untuk membandingkan proporsi atau jumlah antar kategori, contoh: warna (merah, kuning, biru, dll) atau jenis kelamin (laki-laki dan perempuan). Sedangkan, data kontinu adalah data yang diperoleh melalui pengukuran dan dapat mengambil nilai apa pun (termasuk pecahan atau desimal) dalam rentang tertentu. Contohnya meliputi berat badan, tinggi badan, suhu, dan waktu.

Studi Kasus

Berlian merupakan produk bernilai tinggi yang kualitas dan harganya dipengaruhi oleh berbagai karakteristik fisik. Beberapa atribut utama seperti berat (carat), kualitas potongan (cut), warna (color), tingkat kejernihan (clarity), serta proporsi fisik seperti depth dan table menjadi faktor penting dalam menilai kualitas sebuah berlian. Setiap karakteristik tersebut memiliki distribusi yang berbeda, sehingga perlu dipahami bagaimana pola penyebarannya dalam data.

Dalam studi kasus ini, analisis difokuskan pada analisis univariat, yaitu melihat distribusi masing-masing variabel secara terpisah. Tujuannya adalah untuk memahami karakteristik umum data, seperti nilai yang paling sering muncul, tingkat penyebaran, serta keberadaan nilai ekstrem (outlier). Melalui berbagai visualisasi distribusi, diharapkan dapat diperoleh gambaran dasar mengenai struktur data berlian sebelum dilakukan analisis yang lebih lanjut. Pendekatan ini penting sebagai langkah awal untuk memastikan pemahaman yang baik terhadap pola data dan kualitas informasi yang tersedia.

Data yang digunakan bersumber dari R, yaitu dataset diamonds, yang memuat informasi tentang cut, color, clarity, dan atribut lain dari berlian tersebut. Dalam dataset ini, terdapat 7 kategori warna (D sampai J) dan 8 tingkat clarity (I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF). Agar visualisasi lebih fokus dan mudah dibaca, kita akan mengelompokkan warna dan clarity ke dalam tiga kategori yang paling sering muncul, sedangkan sisanya digabung menjadi kelompok “Lainnya”. Hal ini memungkinkan kita melihat pola dominan tanpa kehilangan informasi secara keseluruhan.


Visualisasi Data Kategorik

Grafik batang di bawah ini menampilkan jumlah absolut berlian untuk setiap kombinasi warna (E, F, G, dan lainnya) pada masing-masing tingkat kualitas potongan (cut). Dari sini kita bisa melihat bahwa berlian dengan potongan Ideal dan Premium jauh lebih banyak dibandingkan Fair dan Good. Namun, karena jumlah total antar kelompok cut sangat timpang, membandingkan jumlah absolut antar cut bisa menyesatkan

Misalnya, kita dapat lihat bahwa warna E dan F selalu mendominasi secara visual di semua cut. Namun, karena panjang batang berbeda (misalnya Fair pendek, Ideal panjang), sulit membandingkan secara adil apakah dominasi warna E di Fair sebesar di Ideal. Untuk mengetahui apakah suatu warna benar‑benar lebih disukai atau proporsinya konsisten bisa dilakukan jika kita menyamakan skala menjadi persentase, seperti yang akan ditampilkan pada grafik proporsi di bawah.

Grafik proporsi untuk distribusi warna berdasarkan kualitas potongan menunjukkan bahwa warna E dan F mendominasi secara konsisten di setiap tingkat cut, dengan porsi masing‑masing sekitar 30-35% dari total berlian pada cut tersebut. Warna G dan kelompok warna lainnya (selain tiga terbanyak) hanya menempati porsi kecil, sekitar 10-15% secara bersama‑sama.

Stabilitas ini baru terlihat jelas ketika kita menggunakan proporsi, bukan jumlah absolut. Jika hanya mengandalkan jumlah absolut, kita bisa terkecoh bahwa warna E lebih populer di cut Ideal hanya karena populasi Ideal memang besar. Dengan proporsi, kita membandingkan secara adil: seberapa besar pangsa suatu warna dalam kelompok cut tertentu. Insight yang dapat diambil adalah bahwa preferensi atau ketersediaan warna tidak bergantung pada kualitas potongan. Konsumen dapat menemukan warna populer (E dan F) di semua tingkatan cut, sementara produsen dapat merencanakan stok dengan keyakinan bahwa pola permintaan warna seragam di setiap segmen kualitas.

Hal serupa terlihat pada distribusi clarity (kejernihan) berdasarkan cut. Tiga kelompok clarity teratas VS2, SI1, dan SI2 mendominasi secara konsisten di semua tingkat potongan, mencapai sekitar 70-80% dari total berlian pada setiap cut. Kelompok lainnya (VVS1, VVS2, IF, I1) hanya menempati porsi kecil, sekitar 20-30%, dan porsi ini pun stabil antar cut. Dengan menggunakan proporsi, kita dapat melihat bahwa meskipun jumlah sampel antar cut sangat timpang (misalnya Fair jauh lebih sedikit daripada Ideal), komposisi clarity tetap seragam.

Ini menunjukkan bahwa pasar menyediakan kombinasi cut dan clarity dengan pola yang seragam: clarity yang paling umum selalu tersedia di semua kualitas potongan. Bagi produsen atau penjual, stabilitas ini berarti mereka dapat mengalokasikan stok clarity populer secara proporsional di setiap kategori cut tanpa khawatir akan kelebihan atau kekurangan di segmen tertentu. Bagi konsumen, ini menjamin bahwa pilihan clarity favorit dapat ditemukan di berbagai tingkatan potongan. Dengan demikian, visualisasi proporsi memberikan pemahaman yang lebih akurat dan adil tentang karakteristik pasar berlian.


Setelah mengetahui pola kategorik, akan muncul pertanyaan berikut:

  1. Apakah konsistensi ini juga tercermin dalam harga? Apakah warna yang dominan cenderung memiliki harga yang lebih terjangkau atau justru lebih mahal?
  2. Apakah cut yang lebih baik (Ideal, Premium) selalu diasosiasikan dengan carat yang lebih besar atau harga yang lebih tinggi?
  3. Bagaimana hubungan antara cut (kategorik) dengan depth (kontinu)? Apakah cut yang lebih baik memiliki depth yang lebih konsisten?

Untuk menjawabnya, kita beralih ke analisis data kontinu.


Visualisasi Data Kontinu (Univariate)

Ketika kita melihat distribusi harga berlian pada histogram ini, pola yang muncul sangat jelas: sebagian besar berlian berada pada rentang harga rendah hingga menengah, sementara jumlah berlian semakin berkurang seiring dengan meningkatnya harga. Batang histogram paling tinggi terkonsentrasi di sisi kiri grafik, yang menunjukkan bahwa berlian dengan harga relatif terjangkau jauh lebih banyak tersedia di pasar.

Dari sudut pandang pasar, ini menunjukkan bahwa industri berlian memiliki basis produk mass-market yang kuat, dengan volume penjualan kemungkinan besar terkonsentrasi pada segmen harga terjangkau. Sementara itu, berlian dengan harga sangat tinggi berperan sebagai segmen premium atau eksklusif, yang mungkin menyasar konsumen dengan daya beli tinggi dan kebutuhan khusus. Pola ini wajar karena berlian dengan kualitas ekstrem (misalnya ukuran besar, kejernihan sempurna) jumlahnya terbatas dan harganya melonjak.


Jika histogram sebelumnya menunjukkan bahwa sebagian besar berlian berada pada rentang harga rendah hingga menengah, maka density plot carat berdasarkan kategori harga membantu menjelaskan mengapa pola tersebut terjadi. Terlihat adanya pergeseran distribusi berat (carat) yang konsisten dari kategori Murah ke Menengah hingga Mahal. Berlian pada kategori Murah terkonsentrasi kuat pada carat kecil dengan kurva yang tinggi dan sempit, menandakan bahwa pasar harga rendah didominasi oleh berlian berukuran kecil. Pada kategori Menengah, distribusi mulai bergeser ke kanan dengan puncak yang lebih landai, menunjukkan variasi berat yang lebih beragam. Sementara itu, kategori Mahal memiliki distribusi paling menyebar dan ekor yang lebih panjang hingga di atas 2 carat, menandakan bahwa berlian berukuran besar hampir seluruhnya masuk dalam segmen harga tinggi.

Pola pergeseran kurva ini memperlihatkan hubungan yang sangat kuat antara berat dan harga: semakin besar carat, semakin tinggi probabilitas berlian berada pada kategori harga mahal. Dengan demikian, density plot ini melengkapi histogram harga sebelumnya dengan memberikan penjelasan struktural bahwa distribusi harga yang menceng ke kanan terutama didorong oleh distribusi berat yang juga tidak merata. Meskipun atribut kategorik seperti warna dan clarity menunjukkan konsistensi proporsi antar cut, variabel kontinu seperti carat ternyata menjadi pembeda utama dalam pembentukan segmen harga di pasar berlian.


Distribusi depth menunjukkan bahwa sebagian besar berlian memiliki nilai yang terkonsentrasi pada kisaran sekitar 60-62%, yang merupakan rentang proporsi yang dianggap optimal untuk menghasilkan kilau yang baik. Kotak pada boxplot terlihat relatif sempit, menandakan bahwa variasi depth tidak terlalu besar dan pasar cenderung menyediakan berlian dengan proporsi yang cukup seragam.

Namun, masih terdapat beberapa pencilan di luar kisaran utama, yang menunjukkan adanya berlian dengan proporsi yang terlalu dangkal atau terlalu dalam. Secara umum, pola ini mengindikasikan bahwa depth merupakan karakteristik yang cukup terstandarisasi dibandingkan atribut lainnya, sehingga sebagian besar produk di pasar telah berada pada rentang proporsi yang mendekati nilai ideal.


Kesimpulan

Secara keseluruhan, atribut seperti warna dan tingkat kejernihan menunjukkan pola yang stabil di setiap kualitas potongan. Artinya, karakteristik yang paling umum tersedia secara merata di berbagai segmen, sehingga pilihan tidak terbatas pada kualitas potongan tertentu. Dari sisi harga, sebagian besar berlian berada pada kisaran rendah hingga menengah, sedangkan kelompok dengan harga sangat tinggi jumlahnya relatif sedikit. Ketika dilihat dari ukuran, terlihat kecenderungan yang jelas bahwa berlian dengan berat lebih besar lebih sering berada pada kelompok harga yang lebih tinggi.

Di sisi lain, kualitas potongan tetap memberikan peran penting dalam menentukan nilai. Pada ukuran yang sama, potongan dengan kualitas lebih baik cenderung memiliki nilai per satuan berat yang lebih tinggi. Hal ini menunjukkan bahwa selain ukuran sebagai faktor utama, presisi dan kualitas pengerjaan juga menjadi pembeda yang meningkatkan nilai jual. Dengan demikian, nilai berlian pada dasarnya ditentukan oleh kombinasi antara ukuran sebagai penentu utama dan kualitas sebagai faktor yang memperkuat nilai dalam setiap kelompok harga.