Mengungkap Pola Harga Berlian: Analisis Visual Dataset Diamonds

Pendahuluan

Dalam industri perhiasan, harga berlian ditentukan oleh berbagai karakteristik seperti berat (carat), kualitas potongan (cut), warna (color), dan kejernihan (clarity). Namun sebelum membangun model prediksi atau analisis lanjutan, sebagai data scientist kita perlu memahami terlebih dahulu bagaimana pola distribusi harga tersebut secara keseluruhan.

Penelitian ini menggunakan dataset diamonds, yang tersedia dalam package ggplot2, Fokus kali ini ada pada analisis pada variabel numerik, khususnya harga (price), untuk memahami bagaimana sebaran nilainya dalam populasi data.

library(ggplot2)
library(dplyr)
head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Visualisasi

Histogram

ggplot(diamonds, aes(x = price)) +
  geom_histogram(bins = 30, fill = "skyblue", color = "black") +
  labs(title = "Histogram Harga Berlian",
       x = "Harga (USD)",
       y = "Frekuensi") +
  theme_minimal()

Berdasarkan histogram diatas, terlihat bahwa distribusi harga berlian tidak simetris dan cenderung miring ke kanan, yang mana artiinya, sebagian besar berlian dalam dataset memiliki harga yang relatif rendah hingga menengah, sementara hanya sebagian kecil yang memiliki harga sangat tinggi.

Batang histogram paling tinggi berada pada rentang harga rendah, menunjukkan bahwa mayoritas transaksi. Semakin tinggi harga berlian, frekuensinya semakin menurun secara bertahap. Hal ini menunjukkan bahwa berlian dengan harga mahal memang ada, tetapi jumlahnya jauh lebih sedikit dibandingkan berlian dengan harga terjangkau.

Boxplot

ggplot(diamonds, aes(y = price)) +
  geom_boxplot(fill = "salmon") +
  labs(title = "Boxplot Harga Berlian",
       y = "Harga (USD)") +
  theme_minimal()

Berdasarkan boxplot yang ditampilkan, terlihat bahwa median harga berlian berada di kisaran relatif rendah dibandingkan rentang maksimum harga. Garis yang ada di dalam kotak menunjukkan bahwa setengah dari berlian memiliki harga di bawah nilai tersebut, dan setengah lainnya di atasnya.

Ukuran kotak menunjukkan bahwa sebagian besar harga berlian terkonsentrasi pada rentang harga tertentu, yaitu pada segmen harga rendah hingga menengah. Namun, terlihat banyak outlier di bagian atas, yang menandakan adanya sejumlah berlian dengan harga sangat tinggi dibandingkan mayoritas.

Whisker bagian atas yang jauh lebih panjang serta banyaknya outlier di sisi atas memperkuat histogram tadi bahwa distribusi harga miring ke kanan. Artinya, pasar berlian didominasi oleh produk dengan harga lebih terjangkau, sementara berlian premium dengan harga sangat tinggi hanya mencakup sebagian kecil dari keseluruhan.

Density

ggplot(diamonds, aes(x = price)) +
  geom_density(fill = "lightgreen", alpha = 0.5) +
  labs(title = "Density Plot Harga Berlian",
       x = "Harga (USD)",
       y = "Kepadatan") +
  theme_minimal()

Berdasarkan density plot yang dipaparkan, terlihat bahwa distribusi harga berlian memiliki puncak kepadatan tertinggi pada kisaran harga rendah, sama seperti histogram tadi juga. dan kurva kemudian menurun secara bertahap seiring meningkatnya harga, membentuk ekor panjang di sisi kanan. Pola ini menunjukkan bahwa jumlah berlian dengan harga tinggi semakin sedikit. Sama halnya dengan histogram tadi, berarti pasar berlian di dominasi dengan berlian yang harganya terjangkau.

Selain itu, terlihat adanya sedikit gelombang atau tonjolan kecil pada kisaran harga menengah, yang mengindikasikan adanya konsentrasi tambahan pada segmen harga tertentu. Ini bisa merefleksikan adanya segmentasi pasar, seperti kategori berlian dengan ukuran atau kualitas tertentu yang lebih sering diperdagangkan.

Kesimpilan

Sebagai bagian dari proses eksplorasi data untuk mengungkap pola harga berlian, analisis visual terhadap dataset diamonds menunjukkan bahwa distribusi harga tidak bersifat simetris dan cenderung miring ke kanan. Mayoritas berlian dalam dataset berada pada kisaran harga rendah hingga menengah, sementara hanya sebagian kecil yang memiliki harga sangat tinggi.

Histogram memberikan gambaran awal bahwa frekuensi berlian menurun seiring peningkatan harga. Density plot memperjelas pola tersebut dengan menunjukkan konsentrasi kepadatan tertinggi pada rentang harga bawah serta ekor distribusi yang memanjang ke arah harga tinggi. Boxplot kemudian menegaskan adanya variasi harga yang lebar dan keberadaan banyak nilai ekstrem (outlier) pada segmen premium.

Secara keseluruhan dari visual yang telah saya lakukan, menjelaskan bahwa struktur pasar berlian dalam dataset lebih didominasi oleh segmen harga terjangkau, dengan keberadaan segmen premium yang jumlahnya relatif kecil namun memiliki nilai yang jauh lebih tinggi.

Dengan demikian, melalui pendekatan visual, penelitian ini berhasil mengidentifikasi pola dasar distribusi harga berlian.