Dokumen ini menyajikan analisis visual terhadap 53.940 data berlian (diamonds) yang mencakup atribut kualitas potongan (
cut), warna (color), kejernihan (clarity), dan harga (price). Tiga pertanyaan utama dijawab dalam laporan ini:
Kualitas potongan apa yang paling dominan? Ideal cut mendominasi pasar dengan jumlah hampir dua kali lipat dari kategori lainnya.
Apakah potongan terbaik selalu menggunakan warna terbaik? Tidak. Komposisi warna relatif merata di semua tingkat potongan. Potongan Ideal tetap menggunakan berlian dengan warna sedang (G–I) dalam proporsi signifikan.
Apakah berlian mahal menjamin kejernihan tinggi? Tidak. Kejernihan tinggi (IF/VVS) ditemukan di semua segmen harga, termasuk ekonomis. Sebaliknya, segmen premium tetap memiliki berlian dengan kejernihan rendah.
Hasil analisis menyatakan bahwa dua asumsi umum tentang berlian yang mana potongan bagus selalu berasal dari warna jernih dan harga mahal menjamin kejernihan tinggi, tidak sepenuhnya benar berdasarkan data ini. Rekomendasi strategis disampaikan di bagian akhir laporan. Rekomendasi strategis disampaikan di bagian akhir laporan.
Sebagai perusahaan yang bergerak di industri perhiasan, pemahaman terhadap karakteristik produk adalah kunci dalam pengambilan keputusan strategis, baik dari sisi pengadaan, pemasaran, maupun penetapan harga.
Dataset yang dianalisis merupakan data internal yang mencatat 53.940 transaksi/unit berlian dengan berbagai atribut. Sebelum masuk ke visualisasi utama, perlu dipahami dahulu struktur dan isi data sebagai berikut.
str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
## $ carat : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
## $ cut : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
## $ color : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
## $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
## $ depth : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
## $ table : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
## $ price : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
## $ x : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
## $ y : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
## $ z : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...
Output di atas menunjukkan bahwa dataset ini memiliki:
53.940 baris = 53.940 butir (unit) berlian yang tercatat.
10 kolom = 10 jenis informasi (variabel) untuk setiap berlian.
Dari 10 informasi tersebut dapat dikelompokkan seperti berikut:
| Jenis Informasi | Rincian | Keterangan |
|---|---|---|
| Identitas & kualitas | cut, color, clarity |
Kualitas potongan, warna, kejernihan berlian. Tiga atribut utama yang umumnya digunakan untuk menilai kualitas berlian. |
| Ukuran fisik | carat, x, y, z,
depth, table |
Berat (carat) dan dimensi fisik berlian. |
| Nilai | price |
Harga dalam USD. Merupakan variabel numerik kontinu. |
Penjelasan:
Dataset ini kaya akan informasi, namun laporan ini difokuskan
pada tiga variabel kategorik: cut (potongan),
color (warna), dan clarity (kejernihan).
Ketiga atribut ini umumnya digunakan sebagai indikator utama kualitas
berlian. Analisis visual akan menguji sejauh mana asumsi-asumsi umum
tentang ketiga atribut tersebut terbukti, atau justru terbantahkan oleh
data yang ada.
Note: Variabel
pricesebenarnya merupakan data numerik kontinu. Tetapi, untuk keperluan visualisasi bar chart, variabel ini akan dikelompokkan (diskretisasi) menjadi kategori harga (ekonomis, menengah, premium) agar bisa dianalisis bersama variabel kategorik lainnya.
Dari sekian banyak berlian tersebut, kualitas potongan mana yang paling banyak? Apakah stok sesuai dengan permintaan pasar?
Fokus analisis adalah perbandingan jumlah antar kategori, sehingga visualisasi yang tepat adalah bar chart frekuensi sebagai berikut.
ggplot(diamonds, aes(x = cut)) +
geom_bar(fill = "purple") +
geom_text(stat = "count",
aes(label = after_stat(count)),
vjust = -0.8,
size = 3.5) +
scale_y_continuous(labels = comma,
expand = expansion(mult = c(0, 0.1))) +
labs(
title = "Distribusi Berlian Berdasarkan Kualitas Potongan",
subtitle = "Dataset diamonds (n = 53.940)",
x = "Kualitas Potongan",
y = "Jumlah Berlian (unit)",
caption = "Sumber: ggplot2::diamonds"
) +
theme_minimal(base_size = 12)
Interpretasi:
Grafik ini menunjukkan jumlah berlian untuk setiap tingkat kualitas potongan, dari Fair (kualitas dasar) hingga Ideal (kualitas terbaik). Semakin tinggi batang, semakin banyak jumlah berlian dengan kualitas tersebut.
Dari data yang divisualisasikan, terlihat bahwa berlian dengan potongan Ideal adalah yang paling banyak tersedia, yaitu sebanyak 21.551 unit. Jumlah ini hampir dua kali lipat dibandingkan potongan Premium (13.791 unit) dan Very Good (12.082 unit). Sebaliknya, potongan Fair hanya tercatat sebanyak 1.610 unit, paling sedikit di antara semua kategori.
Apa artinya?
Jika kita asumsikan bahwa jumlah stok mencerminkan permintaan pasar, maka dapat disimpulkan bahwa konsumen lebih memilih berlian dengan potongan berkualitas tinggi. Potongan Ideal dan Premium mendominasi pasar, sementara potongan dasar (Fair) hanya menempati segmen yang sangat kecil. Informasi ini dapat menjadi pertimbangan dalam strategi pengadaan: prioritaskan stok pada potongan Ideal dan Premium, serta evaluasi kembali apakah perlu mempertahankan potongan Fair dalam jumlah besar.
Apakah terdapat kecenderungan warna tertentu pada tiap tingkat kualitas potongan, misalnya asumsi bahwa potongan yang lebih baik selalu dari berlian dengan warna lebih jernih?
Fokus analisis adalah komposisi kategori dalam setiap kelompok, sehingga visualisasi yang tepat adalah stacked bar chart seperti di bawah ini.
# Mengurutkan cut berdasarkan tingkat kualitas
diamonds$cut <- factor(diamonds$cut,
levels = c("Fair", "Good", "Very Good", "Premium", "Ideal"))
ggplot(diamonds, aes(x = cut, fill = color)) +
geom_bar() +
scale_fill_viridis_d(option = "plasma",
name = "Warna (D = jernih, J = kekuningan)") +
labs(
title = "Komposisi Warna Berlian pada Setiap Tingkat Kualitas Potongan",
subtitle = "Semakin ke kanan, kualitas potongan semakin tinggi",
x = "Kualitas Potongan",
y = "Jumlah Berlian (unit)",
caption = "Sumber: ggplot2::diamonds"
) +
theme_minimal(base_size = 12) +
theme(legend.position = "bottom")
Interpretasi:
Grafik ini menampilkan komposisi warna berlian (D hingga J) di setiap tingkat kualitas potongan. Tiap batang (bar) mewakili 100% produk dalam kategori potongan tertentu, dan warna pada batang menunjukkan proporsi masing-masing tingkat warna.
Seringkali beredar asumsi bahwa berlian dengan potongan terbaik pasti menggunakan bahan baku dengan warna terbaik (D/E/F). Namun, data menunjukkan hal yang berbeda.
Apa yang sebenarnya terjadi?
Komposisi warna di semua tingkat potongan (dari Fair hingga Ideal) cenderung serupa. Warna G, H, dan I (kategori kekuningan) tetap muncul dalam proporsi yang signifikan, bahkan pada potongan Ideal dan Premium. Artinya, tidak ada bukti kuat bahwa potongan yang lebih baik hanya menggunakan berlian dengan warna lebih jernih.
Implikasi bisnis: Keputusan pemotongan berlian tidak selalu bergantung pada warnanya. Berlian dengan warna sedang (G–I) tetap dapat dihasilkan menjadi potongan berkualitas tinggi. Ini membuka peluang efisiensi kalau perusahaan tidak perlu membatasi pasokan warna tertentu hanya untuk memproduksi potongan Ideal. Strategi pengadaan dapat lebih fleksibel dengan tetap mempertahankan kualitas potongan.
Bagaimana pula dengan asumsi “mahal = jernih”? Apakah benar berlian dengan harga lebih tinggi cenderung memiliki tingkat kejernihan yang lebih baik? Apakah data mendukung asumsi ini?
Fokus analisis di sini adalah proporsi relatif antar kelompok, sehingga visualisasi yang tepat adalah proportion bar chart.
# Membuat kategori harga
diamonds <- diamonds %>%
mutate(price_category = case_when(
price < quantile(price, 0.5) ~ "Ekonomis (< Q2)",
price < quantile(price, 0.75) ~ "Menengah (Q2–Q3)",
TRUE ~ "Premium (> Q3)"
))
# Mengurutkan clarity dari tingkat tertinggi ke terendah
diamonds$clarity <- factor(diamonds$clarity,
levels = c("IF", "VVS1", "VVS2", "VS1", "VS2", "SI1", "SI2", "I1"))
ggplot(diamonds, aes(x = price_category, fill = clarity)) +
geom_bar(position = "fill") +
scale_y_continuous(labels = percent) +
scale_fill_viridis_d(option = "turbo", name = "Tingkat Kejernihan") +
labs(
title = "Proporsi Tingkat Kejernihan Berlian berdasarkan Segmen Harga",
subtitle = "Segmen premium vs kejernihan tinggi (IF/VVS)",
x = "Segmen Harga",
y = "Proporsi",
caption = "Sumber: ggplot2::diamonds"
) +
theme_minimal(base_size = 12) +
theme(legend.position = "bottom")
Interpretasi:
Grafik proporsi ini membagi berlian ke dalam tiga segmen harga yang mencerminkan posisi produk di pasar:
Ekonomis: 50% produk dengan harga terendah (ini mencakup mayoritas pasar)
Menengah: 25% produk berikutnya (segmen transisi menuju harga atas)
Premium: 25% produk dengan harga tertinggi (segmen eksklusif)
Setiap batang penuh mewakili 100% produk dalam segmen harga tersebut. Warna-warna pada batang menunjukkan proporsi tingkat kejernihan (clarity), dari IF (sempurna) hingga I1 (inklusif yang jelas terlihat).
Apakah “mahal = jernih”?
Ternyata tidak. Komposisi tingkat kejernihan di ketiga segmen harga hampir identik.
Di segmen Ekonomis, tetap tersedia berlian dengan kejernihan tinggi (IF/VVS).
Di segmen Premium, masih ditemukan berlian dengan kejernihan rendah (SI2/I1).
Artinya, harga bukan penentu tunggal kejernihan. Faktor lain seperti berat (carat) dan kualitas potongan (cut) kemungkinan besar lebih berpengaruh terhadap harga. Ini adalah temuan penting karena membantah stereotip konsumen bahwa “semakin mahal pasti semakin jernih”.
Rekomendasi:
Tim pemasaran dapat menggunakan temuan ini untuk mengedukasi konsumen kalau berlian dengan kejernihan tinggi bisa diperoleh di berbagai rentang harga, tidak hanya produk termahal. Ini bisa menjadi nilai jual yang membedakan merek ini dari kompetitor lain.
Tim pengadaan tidak perlu mengalokasikan seluruh anggaran pada berlian dengan kejernihan tertinggi, karena segmen harga menengah dan ekonomis juga membutuhkan variasi produk, termasuk berlian dengan kejernihan baik namun harga lebih terjangkau.
Berdasarkan analisis visual terhadap 53.940 data berlian, diperoleh tiga hasil utama:
1. Potongan Ideal mendominasi pasar. Produk dengan kualitas potongan tertinggi tersedia dalam jumlah paling banyak, yaitu 21.551 unit atau hampir dua kali lipat dibandingkan kategori lainnya. Hal ini mengindikasikan bahwa pasar cenderung memilih produk dengan kualitas potongan terbaik, sementara potongan dasar (Fair) hanya menempati segmen yang sangat kecil.
2. Tidak ada hubungan eksklusif antara potongan terbaik dan warna terbaik. Komposisi warna di semua tingkat potongan relatif serupa. Potongan Ideal dan Premium tetap menggunakan berlian dengan warna sedang (G, H, I) dalam proporsi yang signifikan. Asumsi bahwa potongan bagus harus berasal dari berlian dengan warna jernih (D, E, F) tidak terbukti.
3. Kejernihan tinggi tidak eksklusif di segmen harga premium. Distribusi tingkat kejernihan hampir identik di ketiga segmen harga. Berlian dengan kejernihan tinggi (IF, VVS1, VVS2) tersedia di segmen ekonomis, dan sebaliknya, berlian mahal pun masih ada yang memiliki kejernihan rendah (SI2, I1). Stereotip bahwa semakin mahal harga berarti semakin jernih berlian tidak didukung oleh data.
Pengadaan:
Prioritaskan potongan Ideal dan Premium karena paling diminati pasar. Evaluasi kembali alokasi potongan Fair yang permintaannya sangat kecil.
Jangan batasi pasokan berdasarkan warna. Berlian warna sedang (G–I) tetap dapat dihasilkan menjadi potongan berkualitas tinggi.
Diversifikasi pengadaan kejernihan. Segmen ekonomis dan menengah juga membutuhkan berlian dengan kejernihan baik pada harga terjangkau.
Pemasaran:
Edukasi konsumen bahwa berlian jernih tidak selalu mahal, dan berlian mahal tidak selalu jernih. Jadikan nilai jual diferensiasi.
Fokus kampanye pada potongan Ideal sebagai keunggulan produk yang terbukti dari data.
Penetapan Harga:
Riset Lanjutan:
ggplot2,
dplyr, scalesdiamonds (bawaan paket
ggplot2)