Analisis Eksploratif Distribusi Variabel Numerik Kontinu Secara Univariat pada Dataset Diamonds

A. Pendahuluan

Dataset diamonds merupakan salah satu dataset yang tersedia dalam paket ggplot2 dan berisi informasi mengenai karakteristik lebih dari 50.000 berlian. Variabel numerik kontinu yang tersedia mencakup ukuran berat (carat), harga (price), dimensi fisik (x, y, z), serta beberapa atribut kualitas lainnya. Pada laporan ini, analisis difokuskan pada variabel numerik kontinu secara univariat, yaitu dengan mengkaji satu variabel dan memahaminya lewat visual.

Dalam laporan ini, akan disajikan tiga bentuk visualisasi utama menggunakan fungsi ggplot() dari paket ggplot2, yaitu histogram, density plot, boxplot, dan violin plot. Grafik-grafik tersebut dipilih karena mampu merepresentasikan distribusi data secara komprehensif serta memberikan interpretasi yang mudah dipahami, bahkan oleh audiens non-teknis.

B. Metodologi

Dalam analisis ini digunakan beberapa variabel numerik kontinu dari dataset diamonds. Variabel numerik kontinu dipilih karena dapat dianalisis menggunakan teknik visualisasi distribusi seperti histogram, density plot, boxplot, dan violin plot. Berikut adalah variabel yang dipilih untuk diamati: - Price Variabel price menunjukkan harga berlian dalam satuan dolar Amerika Serikat (USD). Variabel ini bersifat numerik kontinu karena nilainya dapat berada dalam rentang tertentu dan memiliki variasi yang luas. Price digunakan untuk melihat bagaimana sebaran harga berlian dalam dataset.

  • Carat Variabel carat menyatakan berat berlian dalam satuan karat. Berat berlian merupakan salah satu faktor utama yang memengaruhi harga. Karena nilainya berbentuk desimal dan berada dalam rentang kontinu, variabel ini cocok untuk dianalisis menggunakan grafik distribusi guna melihat pola sebaran ukuran berlian.

C. Visualisasi dan Interpretasi

  • Histogram
ggplot(diamonds, aes(x = price)) +
  geom_histogram(bins = 30, fill = "skyblue", color = "black") +
  labs(
    title = "Distribusi Harga Diamond",
    x = "Harga (USD)",
    y = "Frekuensi"
  ) +
  theme_minimal()

Visualisasi di atas menunjukkan distribusi harga berlian dari dataset diamonds yang memiliki karakteristik skewed to the right atau menceng ke kanan. Mayoritas berlian terkonsentrasi pada rentang harga rendah, dengan puncak frekuensi tertinggi berada di kisaran $500 – $1.500. Seiring bertambahnya harga, jumlah ketersediaan unit menurun drastis, menunjukkan bahwa berlian harga premium ($15.000+) sangat langka dalam dataset ini.

  • Density Plot
ggplot(diamonds, aes(x = carat)) +
  geom_density(fill = "orange", alpha = 0.5) +
  labs(
    title = "Distribusi Berat Diamond)",
    x = "Carat",
    y = "Kepadatan"
  ) +
  theme_minimal()

Density plot ini menunjukkan bahwa distribusi berat berlian sangat miring ke kanan (skewed to the right), di mana mayoritas data menumpuk pada rentang 0.3 hingga 0.5 karat. Hal yang paling menarik adalah munculnya beberapa puncak lokal pada angka-angka bulat seperti 1.0, 1.5, dan 2.0 karat. Fenomena ini mengindikasikan adanya preferensi pasar atau standar pemotongan yang sengaja mengejar angka karat bulat karena memiliki nilai jual yang lebih tinggi. Sebaliknya, berlian dengan berat di atas 3 karat jumlahnya sangat langka, yang terlihat dari garis kepadatan (density) yang terus melandai mendekati nol hingga angka 5 karat.

  • Boxplot
ggplot(diamonds, aes(y = price)) +
  geom_boxplot(fill = "lightgreen") +
  labs(
    title = "Boxplot Harga Diamond",
    y = "Harga (USD)"
  ) +
  theme_minimal()

Dari plot di atas, terlihat nilai median harga berlian berada di angka yang relatif rendah (sekitar $2.400). Kotak hijau menunjukkan rentang interkuartil (IQR), yang membuktikan bahwa 50% data terkonsentrasi di bawah harga $5.300. Hal yang paling mencolok adalah banyaknya titik hitam di atas garis whisker atas, yang mengindikasikan keberadaan banyak outliers atau pencilan. Data pencilan ini merepresentasikan berlian dengan harga premium yang jauh melampaui rata-rata harga pasar pada umumnya (mencapai $18.000+).

  • Violin Plot
ggplot(diamonds, aes(x = "", y = price)) +
  geom_violin(fill = "skyblue", alpha = 0.6) +
  labs(
    title = "Violin Plot Harga Diamond",
    x = "",
    y = "Harga (USD)"
  ) +
  theme_minimal()

Dari violin plot yang telah disajikan, terlihat bagian bawah yang sangat lebar menunjukkan bahwa konsentrasi massa data terbesar berada pada rentang harga rendah (di bawah $2.500), yang memperlihatkan dominasi berlian kategori ekonomis. Bentuk leher yang menyempit tajam ke arah atas menggambarkan penurunan drastis jumlah unit seiring dengan kenaikan harga. Selain itu, adanya sedikit pelebaran (benjolan) di sekitar harga $4.000 - $5.000 menunjukkan adanya kelompok harga sekunder sebelum distribusi benar-benar melandai menuju harga premium di atas $15.000. Secara visual, plot ini mempertegas sifat data yang sangat skewed dan tidak terdistribusi secara normal.

Kesimpulan

Berdasarkan hasil visualisasi, dapat disimpulkan bahwa karakteristik dataset diamonds didominasi oleh kelompok nilai rendah, baik pada variabel price maupun carat. Distribusi harga menunjukkan pola miring ke kanan (skewed to the right), di mana mayoritas berlian terkonsentrasi pada rentang ekonomi di bawah $2.500, sementara berlian harga premium ($10.000 – $18.000+) muncul sebagai pencilan (outliers) yang jumlahnya sangat terbatas. Hal ini sejalan dengan distribusi carat, di mana densitas tertinggi berada pada angka 0.3 hingga 0.5 karat. Menariknya, terdapat fenomena psikologis pasar yang terlihat dari lonjakan densitas pada angka karat bulat (1.0, 1.5, dan 2.0), yang menunjukkan kecenderungan pemotongan berlian untuk mencapai target berat standar. Secara keseluruhan, data ini menggambarkan pasar yang sangat padat di kelas menengah ke bawah, dengan kelangkaan yang meningkat drastis seiring bertambahnya kualitas fisik berlian.