Analisis Pola dan Visualisasi Statistik pada Karakteristik Pasar Berlian
Visualisasi data merupakan salah satu cara penting untuk menyajikan informasi secara ringkas dan mudah dipahami, terutama bagi audiens awam. Visualisasi data ini bisa untuk tipe data diskrit dan data kategorik. Namun, apa itu data diskrit dan data kategorik? Data diskrit adalah data numerik yang merepresentasikan hasil penghitungan, di mana nilai-nilainya tidak kontinu, contoh: Jumlah mahasiswa prodi Statistika. Sedangkan, data kategorik adalah data yang merepresentasikan kategori atau kelas digunakan untuk membandingkan proporsi atau jumlah antar kategori, contoh: warna (merah, kuning, biru, dll) atau jenis kelamin (laki-laki dan perempuan).
Visualisasi kali ini menggunakan data yang bersumber dari R, yaitu dataset diamonds, yang memuat informasi tentang cut, color, clarity, dan atribut lain dari berlian tersebut. Dalam dataset ini, terdapat 7 kategori warna (D sampai J) dan 8 tingkat clarity (I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF). Agar visualisasi lebih fokus dan mudah dibaca, kita akan mengelompokkan warna dan clarity ke dalam tiga kategori yang paling sering muncul, sedangkan sisanya digabung menjadi kelompok “Lainnya”. Hal ini memungkinkan kita melihat pola dominan tanpa kehilangan informasi secara keseluruhan.
Visualisasi Data Diskrit
Grafik batang di bawah ini menampilkan jumlah absolut berlian untuk setiap kombinasi warna (E, F, G, dan lainnya) pada masing-masing tingkat kualitas potongan (cut). Dari sini kita bisa melihat bahwa berlian dengan potongan Ideal dan Premium jauh lebih banyak dibandingkan Fair dan Good. Namun, karena jumlah total antar kelompok cut sangat timpang, membandingkan jumlah absolut antar cut bisa menyesatkan
data(diamonds)
top3_color <- diamonds %>%
count(color, sort = TRUE) %>%
slice_head(n = 3) %>%
pull(color)
diamonds2 <- diamonds %>%
mutate(color_group = ifelse(color %in% top3_color,
as.character(color),
"Lainnya"))
p_group <- ggplot(diamonds2, aes(x = cut, fill = color_group)) +
geom_bar(position = "dodge", color = "white") +
scale_fill_manual(values = c(
"#FFD6E0",
"#F08080",
"#C1121F",
"#BFBFBF"
)) +
labs(
title = "Distribusi 3 Warna Terbanyak pada Setiap Cut",
x = "Kualitas Cut",
y = "Jumlah Berlian",
fill = "Warna"
)
ggplotly(p_group) %>%
layout(
font = list(family = "Inter"),
plot_bgcolor = "white",
paper_bgcolor = "white"
)Misalnya, kita dapat lihat bahwa warna E dan F selalu mendominasi secara visual di semua cut. Namun, karena panjang batang berbeda (misalnya Fair pendek, Ideal panjang), sulit membandingkan secara adil apakah dominasi warna E di Fair sebesar di Ideal. Untuk mengetahui apakah suatu warna benar‑benar lebih disukai atau proporsinya konsisten bisa dilakukan jika kita menyamakan skala menjadi persentase, seperti yang akan ditampilkan pada grafik proporsi di bawah.
p_prop <- ggplot(diamonds2, aes(x = cut, fill = color_group)) +
geom_bar(position = "fill", color = "white") +
scale_fill_manual(values = c(
"#FFD6E0",
"#FB6F92",
"#C1121F",
"#BFBFBF"
)) +
labs(
title = "Proporsi Warna Berlian per Cut",
x = "Kualitas Cut",
y = "Proporsi",
fill = "Warna"
) +
theme_minimal(base_size = 14)
ggplotly(p_prop) %>%
layout(
font = list(family = "Inter"),
plot_bgcolor = "white",
paper_bgcolor = "white"
)Grafik proporsi untuk distribusi warna berdasarkan kualitas potongan menunjukkan bahwa warna E dan F mendominasi secara konsisten di setiap tingkat cut, dengan porsi masing‑masing sekitar 30–35% dari total berlian pada cut tersebut. Warna G dan kelompok warna lainnya (selain tiga terbanyak) hanya menempati porsi kecil, sekitar 10–15% secara bersama‑sama.
Stabilitas ini baru terlihat jelas ketika kita menggunakan proporsi, bukan jumlah absolut. Jika hanya mengandalkan jumlah absolut, kita bisa terkecoh bahwa warna E lebih populer di cut Ideal hanya karena populasi Ideal memang besar. Dengan proporsi, kita membandingkan secara adil: seberapa besar pangsa suatu warna dalam kelompok cut tertentu. Insight yang dapat diambil adalah bahwa preferensi atau ketersediaan warna tidak bergantung pada kualitas potongan. Konsumen dapat menemukan warna populer (E dan F) di semua tingkatan cut, sementara produsen dapat merencanakan stok dengan keyakinan bahwa pola permintaan warna seragam di setiap segmen kualitas.
Hal serupa terlihat pada distribusi clarity (kejernihan) berdasarkan cut. Tiga kelompok clarity teratas VS2, SI1, dan SI2 mendominasi secara konsisten di semua tingkat potongan, mencapai sekitar 70–80% dari total berlian pada setiap cut. Kelompok lainnya (VVS1, VVS2, IF, I1) hanya menempati porsi kecil, sekitar 20–30%, dan porsi ini pun stabil antar cut. Dengan menggunakan proporsi, kita dapat melihat bahwa meskipun jumlah sampel antar cut sangat timpang (misalnya Fair jauh lebih sedikit daripada Ideal), komposisi clarity tetap seragam.
data(diamonds)
top3_clarity <- diamonds %>%
count(clarity, sort = TRUE) %>%
slice_head(n = 3) %>%
pull(clarity)
diamonds2 <- diamonds %>%
mutate(clarity_group = ifelse(clarity %in% top3_clarity,
as.character(clarity),
"Lainnya"))
p_prop2 <- ggplot (diamonds2, aes(x = cut, fill = clarity_group)) +
geom_bar(position = "fill", color = "white") +
scale_fill_manual(values = c(
"#FFD6E0",
"#FB6F92",
"#C1121F",
"#BFBFBF"
)) +
labs(
title = "Proporsi Clarity Berdasarkan Cut",
x = "Cut",
y = "Persentase",
fill = "Clarity"
) +
theme_minimal(base_size = 14)
ggplotly(p_prop2) %>%
layout(
font = list(family = "Inter"),
plot_bgcolor = "white",
paper_bgcolor = "white"
)Ini menunjukkan bahwa pasar menyediakan kombinasi cut dan clarity dengan pola yang seragam: clarity yang paling umum selalu tersedia di semua kualitas potongan. Bagi produsen atau penjual, stabilitas ini berarti mereka dapat mengalokasikan stok clarity populer secara proporsional di setiap kategori cut tanpa khawatir akan kelebihan atau kekurangan di segmen tertentu. Bagi konsumen, ini menjamin bahwa pilihan clarity favorit dapat ditemukan di berbagai tingkatan potongan. Dengan demikian, visualisasi proporsi memberikan pemahaman yang lebih akurat dan adil tentang karakteristik pasar berlian.
Setelah mengetahui pola kategorik, akan muncul pertanyaan berikut:
- Apakah konsistensi ini juga tercermin dalam harga? Apakah warna yang dominan cenderung memiliki harga yang lebih terjangkau atau justru lebih mahal?
- Apakah cut yang lebih baik (Ideal, Premium) selalu diasosiasikan dengan carat yang lebih besar atau harga yang lebih tinggi?
- Bagaimana hubungan antara cut (kategorik) dengan depth (kontinu)? Apakah cut yang lebih baik memiliki depth yang lebih konsisten?
Untuk menjawabnya, kita beralih ke analisis data kontinu.
Visualisasi Data Kontinu
Ketika kita melihat distribusi harga berlian pada histogram ini, pola yang muncul sangat jelas: sebagian besar berlian berada pada rentang harga rendah hingga menengah, sementara jumlah berlian semakin berkurang seiring dengan meningkatnya harga. Batang histogram paling tinggi terkonsentrasi di sisi kiri grafik, yang menunjukkan bahwa berlian dengan harga relatif terjangkau jauh lebih banyak tersedia di pasar.
p_hist <- ggplot(diamonds, aes(x = price)) +
geom_histogram(binwidth = 1000,
fill = "#C1121F",
color = "black",
linewidth = 0.4,
alpha = 0.8,
boundary = 0) +
labs(title = "Distribusi Harga Berlian",
x = "Harga (USD)",
y = "Frekuensi") +
theme_minimal(base_size = 14) +
scale_x_continuous(breaks = seq(0, 20000, by = 2000))
ggplotly(p_hist) %>%
layout(font = list(family = "Inter"),
plot_bgcolor = "white",
paper_bgcolor = "white")Dari sudut pandang pasar, ini menunjukkan bahwa industri berlian memiliki basis produk mass-market yang kuat, dengan volume penjualan kemungkinan besar terkonsentrasi pada segmen harga terjangkau. Sementara itu, berlian dengan harga sangat tinggi berperan sebagai segmen premium atau eksklusif, yang mungkin menyasar konsumen dengan daya beli tinggi dan kebutuhan khusus. Pola ini wajar karena berlian dengan kualitas ekstrem (misalnya ukuran besar, kejernihan sempurna) jumlahnya terbatas dan harganya melonjak.
Scatter plot antara berat (carat) dan harga menunjukkan korelasi positif yang kuat: semakin besar berat berlian, semakin tinggi harganya. Namun, hubungan ini tidak linier sempurna; pada rentang carat yang sama, harga bisa bervariasi cukup lebar, yang menunjukkan bahwa faktor lain seperti cut, color, dan clarity turut mempengaruhi harga. Titik-titik berwarna berdasarkan kualitas potongan memperlihatkan bahwa pada umumnya, berlian dengan potongan lebih baik (Ideal, Premium) cenderung berada di kisaran harga yang lebih tinggi untuk berat yang sama, meskipun tumpang tindih antar kategori cukup besar. Pola ini membantu pembeli memahami bahwa selain ukuran, kualitas potongan juga berperan dalam menentukan harga. Selain itu, terlihat beberapa celah vertikal (misalnya di sekitar 1,5 carat) yang mungkin mencerminkan preferensi pasar atau ketersediaan ukuran tertentu.
p_scatter <- ggplot(diamonds, aes(x = carat, y = price, color = cut)) +
geom_point(alpha = 0.4, size = 1) +
scale_color_manual(values = c(
"Fair" = "#E41A1C",
"Good" = "#377EB8",
"Very Good" = "#4DAF4A",
"Premium" = "#984EA3",
"Ideal" = "#FF7F00"
)) +
labs(
title = "Hubungan Berat (Carat) dan Harga Berlian",
x = "Berat (carat)",
y = "Harga (USD)",
color = "Cut"
) +
theme_minimal(base_size = 14)
ggplotly(p_scatter) %>%
layout(
font = list(family = "Inter"),
plot_bgcolor = "white",
paper_bgcolor = "white"
)Jika kita melihat hubungan antara berat dan harga, terlihat bahwa meskipun warna dan clarity populer tersebar merata, cut yang lebih baik (Ideal, Premium) cenderung membentuk klaster dengan harga sedikit lebih tinggi pada berat yang sama. Ini menunjukkan bahwa kualitas potongan memberikan premi tersendiri.
Premi tersebut dapat dijelaskan oleh konsistensi depth pada cut berkualitas tinggi, seperti terlihat pada boxplot. Cut Ideal dan Premium memiliki sebaran depth yang lebih sempit dan mendekati nilai ideal, yang berkontribusi pada kilau optimal sebuah nilai tambah yang tidak selalu terlihat dari warna atau clarity semata.
# Boxplot depth per cut
p_box <- ggplot(diamonds, aes(x = cut, y = depth, fill = cut)) +
geom_boxplot(alpha = 0.7, color = "black", outlier.color = "darkred") +
scale_fill_manual(values = c(
"Fair" = "#FFD6E0",
"Good" = "#FB6F92",
"Very Good" = "#C1121F",
"Premium" = "#780000",
"Ideal" = "#BFBFBF"
)) +
labs(
title = "Distribusi Depth berdasarkan Kualitas Cut",
x = "Cut",
y = "Depth (%)"
) +
theme_minimal(base_size = 14) +
theme(legend.position = "none") # karena warna sudah mewakili cut
ggplotly(p_box) %>%
layout(
font = list(family = "Inter"),
plot_bgcolor = "white",
paper_bgcolor = "white"
)Depth adalah rasio tinggi terhadap diameter rata-rata, dan merupakan salah satu indikator proporsi yang mempengaruhi kilau berlian. Dari grafik terlihat bahwa median depth relatif sama antar cut, berkisar antara 61–62%. Namun, variasi (rentang interkuartil) cukup sempit, menunjukkan bahwa sebagian besar berlian memiliki depth yang mendekati nilai ideal (sekitar 60–62%). Pencilan (outlier) lebih banyak ditemukan pada cut dengan kualitas lebih rendah (Fair, Good), menandakan bahwa pada cut tersebut ada berlian dengan proporsi yang tidak biasa. Konsumen yang mengutamakan kilau optimal sebaiknya memilih berlian dengan depth di kisaran ideal, dan boxplot ini membantu mengidentifikasi cut mana yang cenderung memiliki depth lebih konsisten.
Kesimpulan
Melalui serangkaian visualisasi interaktif ini, kita dapat menarik beberapa benang merah penting mengenai karakteristik pasar berlian. Pertama, atribut kategorik seperti warna dan kejernihan menunjukkan pola distribusi yang sangat konsisten di seluruh tingkat kualitas potongan: warna E dan F serta kejernihan VS2, SI1, dan SI2 mendominasi dengan proporsi yang stabil, mengindikasikan bahwa pasar cenderung menyediakan kombinasi atribut yang seragam tanpa memandang segmen cut. Kedua, pada sisi kontinu, terlihat bahwa harga berlian sangat dipengaruhi oleh berat (carat) namun dengan variasi yang signifikan pada bobot yang sama, menegaskan peran penting faktor kualitas lainnya seperti potongan, warna, dan kejernihan dalam menentukan nilai. Distribusi harga yang menceng ke kanan juga mengonfirmasi bahwa berlian dengan harga ekstrem merupakan produk langka, sementara mayoritas transaksi terjadi di kisaran menengah. Temuan-temuan ini tidak hanya membantu konsumen dalam memahami ekspektasi pasar, tetapi juga memberikan landasan bagi pelaku industri untuk mengelola stok dan strategi harga secara lebih tepat sasaran. Pendekatan visual berbasis proporsi terbukti lebih adil dalam membandingkan kelompok dengan ukuran berbeda, dan dengan dukungan interaktivitas, wawasan yang diperoleh menjadi semakin mudah dicerna oleh berbagai kalangan.