Ringkasan Isi

Laporan ini merupakan kelanjutan dari eksplorasi data diamonds yang telah dilakukan sebelumnya. Jika sebelumnya fokus pada analisis univariate untuk memahami distribusi harga (price), kini analisis diperluas ke bivariate untuk melihat hubungan antara harga dengan berbagai atribut kualitas berlian.

Empat pertanyaan utama dijawab dalam laporan ini:

  1. Bagaimana hubungan antara berat (carat) dan harga (price)? Menggunakan scatter plot dan hexbin plot untuk melihat pola hubungan kedua variabel numerik dan area konsentrasi data.

  2. Apakah terdapat perbedaan harga antar kualitas potongan (cut)? Menggunakan boxplot untuk membandingkan distribusi harga antar kategori potongan.

  3. Bagaimana pengaruh warna (color) terhadap harga berlian? Menggunakan violin plot untuk melihat distribusi harga antar tingkat warna.

  4. Bagaimana peran kejernihan (clarity) dalam menentukan harga? Menggunakan boxplot untuk membandingkan distribusi harga antar tingkat kejernihan.

HHasil analisis menunjukkan bahwa berat merupakan prediktor terkuat harga dengan hubungan positif yang eksponensial pada ukuran besar. Namun, interaksi antar atribut sangat kompleks, potongan tidak linear seperti asumsi (Premium lebih tinggi dari Ideal), warna yang kurang jernih (I–J) mampu mencapai harga tinggi jika ukurannya besar, dan kejernihan menengah (SI2, I1) justru memiliki median lebih tinggi dari IF. Harga berlian ditentukan oleh kombinasi atribut, bukan faktor tunggal.

A. PENDAHULUAN

1. Konteks Analisis

Sebagai perusahaan yang bergerak di industri perhiasan, pemahaman terhadap faktor-faktor yang memengaruhi harga berlian adalah kunci dalam pengambilan keputusan strategis. Setelah sebelumnya memahami karakter dasar harga secara univariate, kini perlu menjawab pertanyaan yang lebih lanjut:

  • Apakah berlian yang lebih berat selalu lebih mahal?

  • Apakah potongan yang lebih baik menjamin harga yang lebih tinggi?

  • Seberapa besar pengaruh warna terhadap harga?

  • Bagaimana peran kejernihan dalam menentukan harga?

Pertanyaan-pertanyaan ini hanya bisa dijawab melalui visualisasi bivariate, yaitu melihat hubungan antara dua variabel secara bersamaan. Hasil eksplorasi ini akan menjadi landasan untuk analisis lebih lanjut, seperti uji korelasi atau pemodelan regresi, guna mengukur kekuatan hubungan antar variabel secara kuantitatif.

2. Struktur Data yang Dianalisis

Dataset yang digunakan masih sama, yaitu data internal diamonds dengan 53.940 catatan transaksi/unit berlian.

str(diamonds)
## tibble [53,940 × 10] (S3: tbl_df/tbl/data.frame)
##  $ carat  : num [1:53940] 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...
##  $ cut    : Ord.factor w/ 5 levels "Fair"<"Good"<..: 5 4 2 4 2 3 3 3 1 3 ...
##  $ color  : Ord.factor w/ 7 levels "D"<"E"<"F"<"G"<..: 2 2 2 6 7 7 6 5 2 5 ...
##  $ clarity: Ord.factor w/ 8 levels "I1"<"SI2"<"SI1"<..: 2 3 5 4 2 6 7 3 4 5 ...
##  $ depth  : num [1:53940] 61.5 59.8 56.9 62.4 63.3 62.8 62.3 61.9 65.1 59.4 ...
##  $ table  : num [1:53940] 55 61 65 58 58 57 57 55 61 61 ...
##  $ price  : int [1:53940] 326 326 327 334 335 336 336 337 337 338 ...
##  $ x      : num [1:53940] 3.95 3.89 4.05 4.2 4.34 3.94 3.95 4.07 3.87 4 ...
##  $ y      : num [1:53940] 3.98 3.84 4.07 4.23 4.35 3.96 3.98 4.11 3.78 4.05 ...
##  $ z      : num [1:53940] 2.43 2.31 2.31 2.63 2.75 2.48 2.47 2.53 2.49 2.39 ...

Dari output di atas, variabel yang akan dianalisis dalam laporan ini adalah:

Variabel Tipe Keterangan
price Numerik kontinu Harga berlian dalam USD
carat Numerik kontinu Berat berlian (1 carat = 0,2 gram)
cut Kategorik ordinal Kualitas potongan (Fair sampai dengan Ideal)
color Kategorik ordinal Tingkat warna (D = jernih, J = kekuningan)
clarity Kategorik ordinal Tingkat kejernihan (IF = sempurna, I1 = inklusif jelas)

Note: Meskipun price tercatat dalam bilangan bulat (int), secara konsep harga bersifat kontinu karena dapat memiliki nilai di antaranya. Variabel cut, color, dan clarity merupakan kategorik ordinal yang akan digunakan sebagai variabel pengelompok, bukan sebagai variabel kontinu yang dianalisis hubungannya.

B. VISUALISASI DAN ANALISIS

1. Scatter Plot: Hubungan Berat dan Harga

Apakah berlian yang lebih berat selalu lebih mahal?

Fokus analisis ini adalah melihat pola hubungan antara berat (carat) dan harga (price), sehingga visualisasi yang tepat adalah scatter plot untuk menunjukkan bagaimana nilai-nilai price berubah seiring peningkatan carat.

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_point(alpha = 0.2, color = "#6F2DA8") +
  scale_y_continuous(labels = dollar) +
  labs(
    title = "Hubungan Berat vs Harga Berlian",
    subtitle = "Scatter plot dengan alpha 0.2 (masih terjadi overplotting)",
    x = "Berat (carat)",
    y = "Harga (USD)",
    caption = "Sumber: ggplot2::diamonds"
  ) +
  theme_minimal()

Scatter plot di atas menunjukkan hubungan antara berat berlian (carat) dan harganya (price). Setiap titik mewakili satu berlian, dengan posisi horizontal menunjukkan berat dan posisi vertikal menunjukkan harga.

Dari visualisasi ini terlihat pola yang jelas: semakin berat berlian, semakin mahal harganya. Namun, dengan 53.940 titik yang diplot, terjadi overplotting (titik-titik saling tindih membentuk gumpalan), terutama di area berat di bawah 2 karat dan harga di bawah $10.000. Akibatnya, detail distribusi data di area padat tidak terbaca dengan baik.

Untuk mengatasi keterbatasan ini, digunakan hexbin plot yang akan menunjukkan area dengan konsentrasi data tertinggi dengan jelas.

ggplot(diamonds, aes(x = carat, y = price)) +
  geom_hex(bins = 50) +
  scale_fill_gradient(low = "#CEA2FD", high = "purple4", name = "Jumlah") +
  scale_y_continuous(labels = dollar) +
  labs(
    title = "Kepadatan Hubungan Berat vs Harga Berlian",
    subtitle = "Hexbin plot: warna gelap = area dengan konsentrasi data tinggi",
    x = "Berat (carat)",
    y = "Harga (USD)",
    caption = "Sumber: ggplot2::diamonds"
  ) +
  theme_minimal()

Hexbin plot di atas mengatasi overplotting dengan membagi area plot menjadi sel-sel heksagonal. Warna yang lebih gelap menandakan area dengan konsentrasi data lebih tinggi.

Terlihat bahwa konsentrasi tertinggi berada pada berat 0,5–1,5 karat dengan harga $500–$7.500. Ini adalah segmen pasar utama, yaitu berlian dengan ukuran menengah yang menjadi pilihan mayoritas konsumen.

Semakin berat berlian (>2 karat), jumlahnya semakin sedikit (warna lebih terang), namun harganya melonjak tajam hingga di atas $15.000. Pola ini menunjukkan bahwa berlian besar bersifat langka dan eksklusif, dengan nilai yang meningkat tidak linear melainkan eksponensial.

Makna bagi perusahaan:

  • Segmen volume berada di berat <2 karat sebagai produk andalan dengan perputaran tinggi.

  • Berlian >2 karat adalah segmen premium dengan margin tinggi, meskipun jumlahnya terbatas.

  • Strategi pengadaan dan pemasaran perlu membedakan kedua segmen ini.

2. Boxplot: Perbandingan Harga antar Kualitas Potongan

Apakah potongan yang lebih baik menjamin harga yang lebih tinggi?

Fokus analisis ini adalah membandingkan distribusi harga (price) antar kategori potongan (cut). Visualisasi yang tepat adalah boxplot, karena efektif untuk membandingkan distribusi antar kelompok.

# Mengurutkan cut berdasarkan tingkat kualitas
diamonds$cut <- factor(diamonds$cut, 
                       levels = c("Fair", "Good", "Very Good", "Premium", "Ideal"))

ggplot(diamonds, aes(x = cut, y = price)) +
  geom_boxplot(fill = "#B47EDE", color = "purple4", alpha = 0.5) +
  scale_y_continuous(labels = dollar) +
  labs(
    title = "Distribusi Harga Berdasarkan Kualitas Potongan",
    subtitle = "Potongan lebih baik cenderung lebih mahal, namun ada tumpang tindih",
    x = "Kualitas Potongan",
    y = "Harga (USD)",
    caption = "Sumber: ggplot2::diamonds"
  ) +
  theme_minimal()

Boxplot di atas membandingkan distribusi harga berlian untuk setiap tingkat kualitas potongan. Yang menarik, pola yang muncul tidak linear seperti dugaan awal. Premium justru memiliki median tertinggi, diikuti Fair, Good, Very Good, dan Ideal memiliki median terendah. Ini cukup mengejutkan karena berlian dengan potongan terbaik (Ideal) seharusnya paling mahal, tapi data menunjukkan sebaliknya.

Beberapa kemungkinan:

  • Ideal mungkin lebih banyak ditemukan pada berlian berukuran kecil, sehingga harganya lebih rendah

  • Faktor lain seperti berat dan warna bisa lebih dominan dari potongan

  • Ada perbedaan strategi pricing antar kategori

Adapun diliat dari kuartil, yakni:

  • Batas kotak bawah (Q1): Ideal terendah, semakin naik ke Fair. Artinya, 25% produk termurah di kategori Ideal lebih murah dibanding kategori lain.

  • Batas kotak atas (Q3): Premium tertinggi, Ideal terendah. Artinya, 25% produk termahal di kategori Premium mencapai harga yang lebih tinggi.

Makna bagi perusahaan:

  • Jangan asumsikan Ideal selalu paling mahal. Data membantah.

  • Premium layak diposisikan sebagai produk premium berdasarkan harga.

  • Ideal mungkin lebih cocok sebagai produk volume dengan harga terjangkau.

3. Violin Plot: Distribusi Harga Berdasarkan Warna

Bagaimana pengaruh warna terhadap harga berlian?

Fokus analisis ini adalah melihat distribusi harga (price) antar tingkat warna (color), maka dengan visualisasi violin plot dapat menunjukkan bentuk distribusi sekaligus ringkasan statistiknya.

# Mengurutkan color dari yang paling jernih ke kekuningan
diamonds$color <- factor(diamonds$color, 
                         levels = c("D", "E", "F", "G", "H", "I", "J"))

ggplot(diamonds, aes(x = color, y = price)) +
  geom_violin(fill = "#8F00FF", color = "black", alpha = 0.5) +
  geom_boxplot(width = 0.1, fill = "white", color = "black", alpha = 0.9, outlier.shape = NA) +
  scale_y_continuous(labels = dollar) +
  labs(
    title = "Distribusi Harga Berdasarkan Tingkat Warna",
    subtitle = "Warna lebih jernih (D–F) cenderung lebih mahal, tapi variasinya besar",
    x = "Warna (D = paling jernih, J = paling kekuningan)",
    y = "Harga (USD)",
    caption = "Sumber: ggplot2::diamonds"
  ) +
  theme_minimal()

Violin plot di atas menampilkan distribusi harga berlian untuk setiap tingkat warna, dari D (paling jernih) hingga J (paling kekuningan). Dari sisi lebar violin (kepadatan data), terlihat pola yang jelas: warna yang lebih jernih (D, E, F, G) memiliki distribusi yang lebih merata di berbagai level harga. Violinnya jauh lebih gemuk, menunjukkan bahwa berlian dengan warna D–G tersedia dalam jumlah signifikan baik di harga rendah, menengah, maupun tinggi.

Sebaliknya, warna yang lebih kekuningan (I, J) memiliki violin yang sangat kurus, mengindikasikan bahwa sebagian besar berlian dengan warna ini terkonsentrasi di kisaran harga tertentu, kebanyakan di harga menengah ke bawah, dengan sedikit sekali yang mencapai harga premium.

Dari sisi ujung atas violin (harga maksimum), justru terlihat bahwa H, I, dan J mampu mencapai harga tertinggi, bahkan melampaui D/E/F. Ini menarik karena menunjukkan bahwa berlian dengan warna kurang jernih pun bisa sangat mahal, kemungkinan karena faktor berat yang besar atau potongan yang luar biasa.

Warna H menempati posisi tengah: violin tidak segemuk D-G, tapi ujung atasnya tinggi, menunjukkan bahwa warna-warna ini fleksibel, bisa ditemukan di berbagai segmen, termasuk premium.

Makna bagi perusahaan:

  • Warna D–G unggul dalam keragaman produk yang berarti tersedia di semua level harga, dari terjangkau hingga premium.

  • Warna I–J unggul dalam potensi eksklusivitas, meskipun jumlahnya sedikit, mereka bisa mencapai harga sangat tinggi jika dikombinasikan dengan ukuran besar atau potongan bagus.

  • Warna H adalah serba bisa yang cocok untuk berbagai strategi pemasaran tergantung target pasar.

  • Jangan remehkan warna I dan J. Meskipun secara teori kurang jernih, data menunjukkan mereka bisa menjadi produk premium dalam kondisi tertentu.

4. Violin Plot: Distribusi Harga Berdasarkan Kejernihan

Bagaimana pengaruh tingkat kejernihan terhadap harga berlian?

Fokus analisis ini adalah melihat distribusi harga (price) antar tingkat kejernihan (clarity). Visualisasi yang tepat adalah violin plot, untuk melihat pola distribusi dan variasi harga di setiap kategori kejernihan.

# Mengurutkan clarity dari tingkat tertinggi ke terendah
diamonds$clarity <- factor(diamonds$clarity,
                           levels = c("IF", "VVS1", "VVS2", "VS1", "VS2", "SI1", "SI2", "I1"))
ggplot(diamonds, aes(x = clarity, y = price)) +
  geom_boxplot(fill = "#B47EDE", color = "purple4", alpha = 0.5) +
  scale_y_continuous(labels = dollar) +
  labs(
    title = "Distribusi Harga Berdasarkan Tingkat Kejernihan",
    subtitle = "Kejernihan lebih tinggi (IF-VVS) cenderung lebih mahal, namun variasinya besar",
    x = "Tingkat Kejernihan (IF = sempurna, I1 = inklusif jelas)",
    y = "Harga (USD)",
    caption = "Sumber: ggplot2::diamonds"
  ) +
  theme_minimal()

Boxplot di atas membandingkan distribusi harga antar tingkat kejernihan, dari IF (sempurna) hingga I1 (inklusif jelas). Ada pola menarik di sini, yakni median harga tertinggi justru terlihat pada kategori kejernihan menengah–rendah seperti SI2 dan I1, sedangkan IF yang secara teori paling sempurna justru memiliki median relatif lebih rendah. Ini menunjukkan bahwa faktor lain seperti berat dan potongan bisa lebih dominan dalam menentukan harga dibanding kejernihan semata.

Batas bawah kotak (Q1) menunjukkan IF hingga SI1 relatif sama (~$1.200), namun SI2 dan I1 justru lebih tinggi (~$2.500), artinya tidak ada berlian dengan kejernihan tersebut di harga murah. Adapun untuk batas atas kotak (Q3), VS1 dan VS2 yang tertinggi (~$6.100), sementara IF dan VVS1 terendah (~$2.500). Semua kategori memiliki outlier hingga lebih dari $15.000.

Makna bagi perusahaan:

  • Kejernihan bukan satu-satunya penentu harga. Jangan asumsikan IF selalu paling mahal—berat dan potongan bisa lebih berpengaruh.

  • SI2 dan I1 tidak ditemukan di segmen murah, cocok untuk pasar menengah atas.

  • VS1 dan VS2 unggul di harga atas (Q3 tertinggi), potensial untuk produk premium.

  • Outlier di semua kategori membuka peluang produk eksklusif, terlepas dari tingkat kejernihan.

C. KESIMPULAN DAN SARAN

1. Kesimpulan

Dari analisis bivariate terhadap 53.940 data berlian, diperoleh beberapa temuan penting mengenai hubungan antara harga dengan berbagai atribut kualitas.

Hubungan antara berat (carat) dan harga bersifat positif namun tidak linear. Konsentrasi pasar utama berada pada berlian dengan berat di bawah 2 karat dengan harga $500–$7.500, sementara berlian di atas 2 karat tergolong langka dengan harga yang melonjak tajam hingga di atas $15.000. Ini menegaskan bahwa berlian besar bersifat eksklusif dengan nilai eksponensial.

Pengaruh potongan (cut) terhadap harga tidak sesederhana asumsi umum. Potongan Premium justru memiliki median tertinggi, sementara Ideal yang secara teori merupakan potongan terbaik justru memiliki median terendah. Hal ini mengindikasikan bahwa faktor lain seperti berat dan warna bisa lebih dominan dalam menentukan harga.

Pada variabel warna (color), pola yang menarik terlihat dari lebar violin. Warna yang lebih jernih (D–G) memiliki distribusi lebih merata di berbagai level harga, menunjukkan ketersediaan yang luas di semua segmen. Sementara warna yang lebih kekuningan (I–J) meskipun jumlahnya terbatas, mampu mencapai harga sangat tinggi jika dikombinasikan dengan ukuran besar atau potongan unggul.

Pada variabel kejernihan (clarity), ditemukan bahwa median harga tertinggi justru berada pada kategori menengah–rendah seperti SI2 dan I1, bukan pada IF yang secara teori paling sempurna. Ini kembali menegaskan bahwa kejernihan bukan satu-satunya penentu harga, tapi berat dan potongan dapat lebih berpengaruh.

Secara keseluruhan, harga berlian ditentukan oleh kombinasi kompleks antar atribut, bukan oleh satu faktor tunggal. Temuan ini menjadi landasan penting untuk strategi pricing dan pengadaan yang lebih tepat sasaran.

2. Saran

Bagi Tim Bisnis:

  • Bedakan strategi berdasarkan berat. Fokus pada segmen volume (<2 karat) sebagai produk andalan dengan perputaran tinggi, sementara segmen premium (>2 karat) dikelola sebagai produk eksklusif dengan margin tinggi.

  • Tinjau ulang asumsi tentang potongan. Jangan mengasumsikan Ideal selalu paling mahal. Data menunjukkan Premium justru memiliki median tertinggi, sehingga layak diposisikan sebagai produk premium.

  • Manfaatkan keragaman warna. Warna D–G unggul dalam ketersediaan di semua level harga, cocok untuk strategi volume. Sementara warna I–J berpotensi menjadi produk premium jika dikombinasikan dengan ukuran besar atau potongan bagus.

  • Perhatikan interaksi atribut dalam penetapan harga. Kejernihan bukan satu-satunya penentu, SI2 dan I1 terbukti bisa mencapai harga tinggi. Gunakan pendekatan kombinasi atribut, bukan hanya satu variabel.

Bagi Analisis Lanjutan:

  • Kembangkan model prediktif yang menggabungkan semua atribut (carat, cut, color, clarity) untuk memprediksi harga secara lebih akurat.

  • Lakukan analisis korelasi untuk mengukur kekuatan hubungan antar variabel secara kuantitatif, melengkapi temuan visual.

  • Eksplorasi interaksi antar atribut, misalnya bagaimana pengaruh potongan berbeda pada berbagai rentang berat, atau bagaimana warna berperan pada kelompok kejernihan tertentu.

  • Gunakan teknik multivariat seperti regresi berganda atau random forest untuk memahami kontribusi relatif setiap atribut terhadap harga.

Catatan Teknis

  • Tools: RStudio, RMarkdown, ggplot2, dplyr, scales

  • Dataset: diamonds (bawaan paket ggplot2)

  • Publikasi: Laporan ini diunggah ke RPubs sebagai bagian dari portofolio profesional