Mengungkap Pola Harga Berlian: Analisis Visual Dataset Diamonds
Pendahuluan
Dalam industri perhiasan, harga berlian ditentukan oleh berbagai karakteristik seperti berat (carat), kualitas potongan (cut), warna (color), dan kejernihan (clarity). Namun sebelum membangun model prediksi atau analisis lanjutan, sebagai data scientist kita perlu memahami terlebih dahulu bagaimana pola distribusi harga tersebut secara keseluruhan.
Penelitian ini menggunakan dataset diamonds, yang tersedia dalam package ggplot2, Fokus kali ini ada pada analisis pada variabel numerik, khususnya harga (price), untuk memahami bagaimana sebaran nilainya dalam populasi data.
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
Visualisasi
Histogram
ggplot(diamonds, aes(x = price)) +
geom_histogram(bins = 30, fill = "skyblue", color = "black") +
labs(title = "Histogram Harga Berlian",
x = "Harga (USD)",
y = "Frekuensi") +
theme_minimal()Berdasarkan histogram diatas, terlihat bahwa distribusi harga berlian tidak simetris dan cenderung miring ke kanan, yang mana artiinya, sebagian besar berlian dalam dataset memiliki harga yang relatif rendah hingga menengah, sementara hanya sebagian kecil yang memiliki harga sangat tinggi.
Batang histogram paling tinggi berada pada rentang harga rendah, menunjukkan bahwa mayoritas transaksi. Semakin tinggi harga berlian, frekuensinya semakin menurun secara bertahap. Hal ini menunjukkan bahwa berlian dengan harga mahal memang ada, tetapi jumlahnya jauh lebih sedikit dibandingkan berlian dengan harga terjangkau.
Boxplot
ggplot(diamonds, aes(y = price)) +
geom_boxplot(fill = "salmon") +
labs(title = "Boxplot Harga Berlian",
y = "Harga (USD)") +
theme_minimal()Berdasarkan boxplot yang ditampilkan, terlihat bahwa median harga berlian berada di kisaran relatif rendah dibandingkan rentang maksimum harga. Garis yang ada di dalam kotak menunjukkan bahwa setengah dari berlian memiliki harga di bawah nilai tersebut, dan setengah lainnya di atasnya.
Ukuran kotak menunjukkan bahwa sebagian besar harga berlian terkonsentrasi pada rentang harga tertentu, yaitu pada segmen harga rendah hingga menengah. Namun, terlihat banyak outlier di bagian atas, yang menandakan adanya sejumlah berlian dengan harga sangat tinggi dibandingkan mayoritas.
Whisker bagian atas yang jauh lebih panjang serta banyaknya outlier di sisi atas memperkuat histogram tadi bahwa distribusi harga miring ke kanan. Artinya, pasar berlian didominasi oleh produk dengan harga lebih terjangkau, sementara berlian premium dengan harga sangat tinggi hanya mencakup sebagian kecil dari keseluruhan.
Density
ggplot(diamonds, aes(x = price)) +
geom_density(fill = "lightgreen", alpha = 0.5) +
labs(title = "Density Plot Harga Berlian",
x = "Harga (USD)",
y = "Kepadatan") +
theme_minimal()Berdasarkan density plot yang dipaparkan, terlihat bahwa distribusi harga berlian memiliki puncak kepadatan tertinggi pada kisaran harga rendah, sama seperti histogram tadi juga. dan kurva kemudian menurun secara bertahap seiring meningkatnya harga, membentuk ekor panjang di sisi kanan. Pola ini menunjukkan bahwa jumlah berlian dengan harga tinggi semakin sedikit. Sama halnya dengan histogram tadi, berarti pasar berlian di dominasi dengan berlian yang harganya terjangkau.
Selain itu, terlihat adanya sedikit gelombang atau tonjolan kecil pada kisaran harga menengah, yang mengindikasikan adanya konsentrasi tambahan pada segmen harga tertentu. Ini bisa merefleksikan adanya segmentasi pasar, seperti kategori berlian dengan ukuran atau kualitas tertentu yang lebih sering diperdagangkan.
Kesimpilan
Sebagai bagian dari proses eksplorasi data untuk mengungkap pola harga berlian, analisis visual terhadap dataset diamonds menunjukkan bahwa distribusi harga tidak bersifat simetris dan cenderung miring ke kanan. Mayoritas berlian dalam dataset berada pada kisaran harga rendah hingga menengah, sementara hanya sebagian kecil yang memiliki harga sangat tinggi.
Histogram memberikan gambaran awal bahwa frekuensi berlian menurun seiring peningkatan harga. Density plot memperjelas pola tersebut dengan menunjukkan konsentrasi kepadatan tertinggi pada rentang harga bawah serta ekor distribusi yang memanjang ke arah harga tinggi. Boxplot kemudian menegaskan adanya variasi harga yang lebar dan keberadaan banyak nilai ekstrem (outlier) pada segmen premium.
Secara keseluruhan dari visual yang telah saya lakukan, menjelaskan bahwa struktur pasar berlian dalam dataset lebih didominasi oleh segmen harga terjangkau, dengan keberadaan segmen premium yang jumlahnya relatif kecil namun memiliki nilai yang jauh lebih tinggi.
Dengan demikian, melalui pendekatan visual, penelitian ini berhasil mengidentifikasi pola dasar distribusi harga berlian.